ICCV2015一些稿子整理

ICCV2015一些文章整理

随便记录一下ICCV2015看到的一些paper。很多Paper半年前就已经release在arxiv上了。

类似的总结还有： ICCV2015 21 hottest papers , oral papers总结等。

分割:

--- BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation

弱监督的segmentation，这里的弱监督用到了bounding box的信息，为了实现分割同时也用到了无监督的分割算法进行处理，所以不是一个完整的端到端的网络。训练的过程是一个循环迭代的过程，所以会牵扯到一些比较tricky的东西。从效果上来是不错的（甚至好于完全监督情况下的FCN）。cvlab@snu也有几篇半监督和弱监督的semantic segmentation的文章，贴两篇在下面，有空再写总结（这个组做semantic segmenation有不少文章）：

NIPS2015 - Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation

arxiv - ---Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network

--- Learning Deconvolution Network for Semantic Segmentation

其实是FCN在将deconv层的时候就讲到deconv层可以用多层的网络来实现效果更好。这个想法在这篇文章中实现了。另外这个网络也不是端到端的，而是借助了objectness（相当于尺度的归一化，因为FCN测试的时候没有用multi-scale的策略）。

如果想用FCN加Multi-scale的融合，下面有一篇借助attention的概念进行融合的办法（其实这里的attention就是自适应的选择不同尺度的权重---是不是可以考虑把adaptive的题目改成attention-based会更加高大上一点？）

arxiv - Attention to Scale: Scale-aware Semantic Image Segmentation

--- Weakly Supervised Graph Based Semantic Segmentation by Learning Communities of Image-Parts

manj组今年唯一一篇ICCV（还是oral！）不过是做的概率图模型。本人不擅长这一路手法。。。。

顺便说说arxiv上还有不少加recurrent network做segmentation的，没仔细看。猜想应该是DeepLab的升级版吧，来建模像素点邻域的关联性。

物体检测：

--- Context-aware CNNs for person head detection

--- DeepBox Learning Objectness with Convolutional Networks

--- Fast R-CNN

--- Object detection via a multi-region & semantic segmentation-aware CNN model.

加semantic segmentation的module把模型变宽，提高区分性。同时对object的多个parts建模提高对定位的敏感性（同时又能把网络变宽）。最后因为网络太宽了，GPU memory放不下，结果VGG16的卷积层只好不训练了（直接写到SSD上）只训练FC层。结果只考虑multi-region & semantic segmentation-aware两个部分的话，和Fast RCNN的baseline（which fine-tunes conv3_1 to fc_8）性能竟然只是差不多而已。。。还好文章还有最后一个点叫Multi boxes voting，对regression的效果进行改进。这一点标题里面没提，但是确实全文3个部分中对mAP贡献最大的部分！（这是什么心机？）

作者们后面再arxiv上放了一篇LocNet，对更好的定位又做了一些改进的工作（同时把multi-regions减少了，把segmentation部分去掉了）。相类似做定位的文章还有AttentionNet：

arxiv - LocNet Improving Localization Accuracy for Object Detection

ICCV2015 - AttentionNet: Aggregating Weak Directions for Accurate Object Detection

有个共同特点是都认为regression比较难，分解成分类问题后更简单一些（当然还有别的原因，reddit上有个讨论，大家可以去看：这里）

--- Boosting Object Proposals: From Pascal to COCO

--- DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers

--- Towards Computational Baby Learning: A Weakly-Supervised Approach for Object Detection

说是weakly supervised learning，其实更像是semi-supervised的learning啊。

其他：

--- Holistically-Nested Edge Detection

--- Scalable Person Re-Identification: A Benchmark

--- Local Convolutional Features with Unsupervised Training for Image Retrieval

--- SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks

--- Unsupervised Visual Representation Learning by Context Prediction

有空再接着写。待续

相关推荐