ICCV2015一些稿子整理

ICCV2015一些文章整理

随便记录一下ICCV2015看到的一些paper。很多Paper半年前就已经release在arxiv上了。

类似的总结还有: ICCV2015 21 hottest papers , oral papers总结 等。

 

分割:

--- BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation

      弱监督的segmentation,这里的弱监督用到了bounding box的信息,为了实现分割同时也用到了无监督的分割算法进行处理,所以不是一个完整的端到端的网络。训练的过程是一个循环迭代的过程,所以会牵扯到一些比较tricky的东西。从效果上来是不错的(甚至好于完全监督情况下的FCN)。cvlab@snu也有几篇半监督和弱监督的semantic segmentation的文章,贴两篇在下面,有空再写总结(这个组做semantic segmenation有不少文章):

    NIPS2015  - Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation

    arxiv - ---Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network    

 

--- Learning Deconvolution Network for Semantic Segmentation

     其实是FCN在将deconv层的时候就讲到deconv层可以用多层的网络来实现效果更好。这个想法在这篇文章中实现了。另外这个网络也不是端到端的,而是借助了objectness(相当于尺度的归一化,因为FCN测试的时候没有用multi-scale的策略)。

    如果想用FCN加Multi-scale的融合,下面有一篇借助attention的概念进行融合的办法(其实这里的attention就是自适应的选择不同尺度的权重---是不是可以考虑把adaptive的题目改成attention-based会更加高大上一点?)

    arxiv - Attention to Scale: Scale-aware Semantic Image Segmentation

 

--- Weakly Supervised Graph Based Semantic Segmentation by Learning Communities of Image-Parts

   manj组今年唯一一篇ICCV(还是oral!)不过是做的概率图模型。本人不擅长这一路手法。。。。

 

    顺便说说arxiv上还有不少加recurrent network做segmentation的,没仔细看。猜想应该是DeepLab的升级版吧,来建模像素点邻域的关联性。


物体检测:

--- Context-aware CNNs for person head detection

--- DeepBox Learning Objectness with Convolutional Networks

--- Fast R-CNN

--- Object detection via a multi-region & semantic segmentation-aware CNN model.

     加semantic segmentation的module把模型变宽,提高区分性。同时对object的多个parts建模提高对定位的敏感性(同时又能把网络变宽)。最后因为网络太宽了,GPU memory放不下,结果VGG16的卷积层只好不训练了(直接写到SSD上)只训练FC层。结果只考虑multi-region & semantic segmentation-aware两个部分的话,和Fast RCNN的baseline(which fine-tunes conv3_1 to fc_8)性能竟然只是差不多而已。。。还好文章还有最后一个点叫Multi boxes voting,对regression的效果进行改进。这一点标题里面没提,但是确实全文3个部分中对mAP贡献最大的部分!(这是什么心机?)

     作者们后面再arxiv上放了一篇LocNet,对更好的定位又做了一些改进的工作(同时把multi-regions减少了,把segmentation部分去掉了)。相类似做定位的文章还有AttentionNet:

    arxiv - LocNet Improving Localization Accuracy for Object Detection

    ICCV2015 - AttentionNet: Aggregating Weak Directions for Accurate Object Detection

    有个共同特点是都认为regression比较难,分解成分类问题后更简单一些(当然还有别的原因,reddit上有个讨论,大家可以去看:这里)

--- Boosting Object Proposals: From Pascal to COCO

--- DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers

--- Towards Computational Baby Learning: A Weakly-Supervised Approach for Object Detection

    说是weakly supervised learning,其实更像是semi-supervised的learning啊。


其他:

--- Holistically-Nested Edge Detection

--- Scalable Person Re-Identification: A Benchmark

--- Local Convolutional Features with Unsupervised Training for Image Retrieval

--- SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks

--- Unsupervised Visual Representation Learning by Context Prediction

 

有空再接着写。待续