常见的目标检测算法缺少了定位效果的学习，IoU-Net提出IoU predictor、IoU-guided NMS和Optimization-based bounding box refinement，将IoU作为一个新分支融入到模型的学习和推理中，带来了新的性能优化方法，值得学习和参考

论文: Acquisition of Localization Confidence for Accurate Object Detection

论文地址 arxiv.org/abs/1807.11590
代码地址 github.com/vacancy/Pre…

Introduction

目前大部分的目标检测算法主要是two-stage架构，将目标检测转化为多任务的学习：

预测foreground object proposals以及label
通过bndbox regression对识别的框进行精调
通过NMS对冗余的框进行过滤

目标定位和识别是由两个不同的分支进行的，对于一个预测的框，仅有分类置信度，没有定位置信度，这会导致以下两个问题：

由于缺失定位置信度，在做NMS时，只能以分类置信度作为指标，从图a可以看出，候选框的IoU与分类的置信度并没有正相关的关系
由于缺少定位置信度，bounding box regression变得难以解释，如图b所示，重复进行bounding box regression将可能导致定位精度降低

基于以上的发现，作者提出了IoU-Net，预测当前框的IOU分数作为定位模块的准则，从而从另一个角度解决之前提到的两个问题：

IoU是定位准确率的最佳标准，做NMS的时候使用预测的IOU而不是分类置信度，文中称为 IoU-guided NMS
文中提出optimization-based bounding box refinement procedure的bndbox优化方法。在预测的时候，将预测的IoU作为优化的指标，通过Precise RoI Pooling layer使用梯度上升的方法对框进行回归。实验表明optimization-based的方法要比 regression-based的方法好，optimization-based的方法也能够移植到其它CNN-based的detector

#Delving into object localization

目前的目标定位存在两个问题，一个是分类置信度与定位置信度不一致，一个是非单调性的bounding box regression

Misaligned classification and localization accuracy

目前的定位方法大都用NMS移除冗余的bndbox，在每轮迭代中，分类置信度较高的bndbox予以保留，这显然是不合理的。近期有很多新的NMS变种出现，但最终仍然采用分类置信度作为标准。文中画出了NMS前的IoU和分类置信度的散点图，从图2可以看出，文中提出的定位置信度与IoU有更强的相关性

此外，文中对比了IoU-Guided NMS与传统NMS的表现，从图3可以看出，IoU-Guided NMS能保留更多高质量的框，特别是在Iou>0.9的时候

Non-monotonic bounding box regression

bounding box regression task的核心思想是通过网络直接预测bndbox和gt之间的变换，大多数的detector对bndbox进行二次回归来达到优化的目的。Cascade-RCNN指出，连续使用两次以上的bounding box regression将不会带来太大的收益，于是提出了multi-stage bounding box regression

文中的在FPN和Cascade-RCNN框架下对比了多次Regression Based和多次Optimization Based的效果。如图4，随着迭代次数的增加，Optimization Based的AP曲线依然保持着单调性
#IoU-Net

Learning to predict IoU

如图5，IoU predictor使用FPN的feature map进行每一个bnbbox的IoU的预测，但不会使用FPN的候选框进行训练，而是人工对GT进行一系列的变换获得新的候选框（去掉与GT重叠小与0.5的候选框）。IoU predictor能与大多数的RoI-based detector兼容，因为该模块是相对独立的。值得注意的是，文中提到为了更好的性能，IoU predictor是class-aware，即能预测出每个分类IoU

IoU-guided NMS

IoU-Net使用预测的IoU来作为NMS中bndbox排序的标准，只保留冗余的box中IoU最高的

文中给出了IoU-guided NMS的伪代码，逻辑比较简单，取出候选框中IoU分数最高的框 $b_m$ ，在剩余的框中取出与 $b_m$ 重叠大于 $\Omega$ 的框 $b_j$ ，将重叠的框中的最大的分类置信度以及 $b_m$ 加入到输出中，遍历直到不再有候选框

Bounding box refinement as an optimization procedure

bndbox的精调问题可以公式化地表示为 $c^*$ 的优化问题

在推理的时候，Regression-based的算法直接预测最优的 $c^*$ 。然而 iterative bounding box regression是不稳定的，因此，文中提出了 optimization-based bounding box refinement IoU-Net直接评估预测框与GT之间的IoU，Precise RoI Pooling layer使得IoU的梯度能够回传到box的坐标值上，因此可以利用梯度上升的方法来优化公式1

如算法2，将IoU的预测作为优化的目标，迭代式的用计算出的梯度对预测框进行精调，使预测的IoU值接近1（即GT）。此外，预测的IoU能用于评价中间产生的所有bndbox的优劣在实现时，对于精调后的bndbox预测的IoU，若收益小于预期，甚至退化了，则提前结束该bndbox的精调。比较有趣的是，如第六行，算法会对回传的梯度进行scale up操作，例如 $\nabla_x *=width(b_j)$ ，文中解释为这相当于box regression中对坐标进行log变换 (x/w, y/h, $\log_{10} w$ , $\log_{10} h$ )后再优化

####Precise RoI Pooling

前面提到optimization-based bounding box refinement的关键在于使用了Precise RoI Pooling layer，使得梯度得以回传，文中列出几种主要的Pooling层的比较

RoI Pooling

对于经典的RoI Polling，若坐标信息为非整数则需要先进行量化成整数，变成具体的点，再计算bin内的响应值。这样做会导致原来的RoI区域变形，结果不准确

RoI Align

为了去除量化的影响，RoI Align从bin中采样N=4个点( $a_i$ , $b_i$ )，每个采样点都是用其最近的4个特征点进行双线性插值所得，Pooling在采样点上进行

PrRoI Pooling

RoI Align虽然避免了量化的误差，但N是预设的超参，不会根据bin的大小进行改变，在梯度回传的时候，只有采样过的点才能回传梯度。Precise RoI Pooling不进行任何的量化和采样，直接计算连续的特征图内的二阶积分

首先定义特征图上的任意的点的特征值 $f(x, y)$ 可通过附近离散的点双线性插值计算， $IC(x, y, i, j)=max(0,1-|x-i|) *max(0, 1-|y-j|)$ 是双线性插值的因子，从公式可以看出限定了只使用 $(x, y)$ 的最近四个点

当需要计算bin的pooling时，直接使用二阶积分进行计算，这里应该表达的是avg pooling，分母是bin的面积

由于二阶积分推理时使用 $PrPool(Bin, F)$ 是连续可微的，因此可以求坐标的偏导数进行bndbox的精调，而RoI pooling layer和RoI align layer只能回传feature map的梯度
作者给出了PrPooling layer的代码，用离散的点近似地做连续函数的积分。要注意的是，公式4计算的是bin坐标的偏导数，而不是RoI坐标的偏导数，所以在坐标梯度backward的最后，作者对bin的偏导进行了权重相加到RoI的梯度中。不过这个权重公式的意义笔者还没看懂，了解的小伙伴可以留言交流下

Joint training

IoU predictoe能够整合到标准的FPN网络中进行end-to-end的训练，如图5，IoU-Net使用ResNet-FPN作为主干，FPN提取RoI区域的不同维度特征，将原来的RoI Polling layer替换为Precise RoI Pooling layer，IoU predictor与R-CNN分支并行计算

在训练时，使用ImageNet预训练的ResNet，其余的新层均使用0均值，标准差为0.01或0.001的高斯分布，IoU predictor使用smooth-L1进行训练。图片输入为短边800/长边1200，分类与回归分支获取每张图的512个bndbox，batch_size为16，总共进行160k次迭代，学习率初始为0.01，每120次迭代降低10倍，前10k轮以0.004的学习率进行warm up，weight decay为 $le^{-4}$ ，momentum为0.9
在推理时，先进行一轮bounding box regression作为坐标初始化，为了优化性能，第一次对所欲的bndbox进行IoU-guided NMS，挑选100个置信度最高的bndbox进行optimization-based algorithm，算法2中的 $\lambda=0.5$ ， $\Omega_1=0.001$ ， $\Omega_2=-0.001$ ， $T=5$

Experiments

IoU-guided NMS

论文对比了无NMS/Soft-NMS/IoU-NMS在不同网络以及不同AP要求下的表现，在高AP，特别是 $AP_{90}$ 上，表现较为突出

论文统计了不同IoU阈值下的recall，进一步说明IoU-NMS能保留更多优质的框

Optimization-based bounding box refinement

在不同的网络上，Optimization-based bounding box refinement均有较不错的表现，在 $AP_{80}$ $AP_{90}$ 上的表现尤为明显

Joint training

论文通过不同的组合实验，得出文中提出的创新点均有不错的效果

另外，比较意外的是，IoU-Net的速度并没有下降很多，甚至比Cascade R-CNN还要快，这可能得益于bndbox在进行Optimization-based bounding box refinement前筛剩100个

Conclusion

论文分析了当前的目标检测算法存在的问题，并提出IoU predictor来预测定位置信度，从而进行更准确的bndbox精调以及NMS。另外，论文提出的 IoU-guided NMS和Optimization-based bounding box refinement从实验看来，效果也是相当不错的，而且IoU分支可以很方便地集成到别的网络中，这是相当重要的

写作不易，未经允许不得转载～更多内容请关注知乎专栏/微信公众号【晓飞的算法工程笔记】

ECCV 2018 目标检测 | IoU-Net：将IoU的作用发挥到极致

Introduction

Misaligned classification and localization accuracy

Non-monotonic bounding box regression

Learning to predict IoU

IoU-guided NMS

Bounding box refinement as an optimization procedure

Joint training

Experiments

IoU-guided NMS

Optimization-based bounding box refinement

Joint training

Conclusion