ICCV2015一些稿子整理
随便记录一下ICCV2015看到的一些paper。很多Paper半年前就已经release在arxiv上了。
类似的总结还有: ICCV2015 21 hottest papers , oral papers总结 等。
分割:
--- BoxSup: Exploiting Bounding Boxes to Supervise Convolutional Networks for Semantic Segmentation
弱监督的segmentation,这里的弱监督用到了bounding box的信息,为了实现分割同时也用到了无监督的分割算法进行处理,所以不是一个完整的端到端的网络。训练的过程是一个循环迭代的过程,所以会牵扯到一些比较tricky的东西。从效果上来是不错的(甚至好于完全监督情况下的FCN)。cvlab@snu也有几篇半监督和弱监督的semantic segmentation的文章,贴两篇在下面,有空再写总结(这个组做semantic segmenation有不少文章):
NIPS2015 - Decoupled Deep Neural Network for Semi-supervised Semantic Segmentation
arxiv - ---Learning Transferrable Knowledge for Semantic Segmentation with Deep Convolutional Neural Network
--- Learning Deconvolution Network for Semantic Segmentation
其实是FCN在将deconv层的时候就讲到deconv层可以用多层的网络来实现效果更好。这个想法在这篇文章中实现了。另外这个网络也不是端到端的,而是借助了objectness(相当于尺度的归一化,因为FCN测试的时候没有用multi-scale的策略)。
如果想用FCN加Multi-scale的融合,下面有一篇借助attention的概念进行融合的办法(其实这里的attention就是自适应的选择不同尺度的权重---是不是可以考虑把adaptive的题目改成attention-based会更加高大上一点?)
arxiv - Attention to Scale: Scale-aware Semantic Image Segmentation
--- Weakly Supervised Graph Based Semantic Segmentation by Learning Communities of Image-Parts
manj组今年唯一一篇ICCV(还是oral!)不过是做的概率图模型。本人不擅长这一路手法。。。。
顺便说说arxiv上还有不少加recurrent network做segmentation的,没仔细看。猜想应该是DeepLab的升级版吧,来建模像素点邻域的关联性。
物体检测:
--- Context-aware CNNs for person head detection
--- DeepBox Learning Objectness with Convolutional Networks
--- Fast R-CNN
--- Object detection via a multi-region & semantic segmentation-aware CNN model.
加semantic segmentation的module把模型变宽,提高区分性。同时对object的多个parts建模提高对定位的敏感性(同时又能把网络变宽)。最后因为网络太宽了,GPU memory放不下,结果VGG16的卷积层只好不训练了(直接写到SSD上)只训练FC层。结果只考虑multi-region & semantic segmentation-aware两个部分的话,和Fast RCNN的baseline(which fine-tunes conv3_1 to fc_8)性能竟然只是差不多而已。。。还好文章还有最后一个点叫Multi boxes voting,对regression的效果进行改进。这一点标题里面没提,但是确实全文3个部分中对mAP贡献最大的部分!(这是什么心机?)
作者们后面再arxiv上放了一篇LocNet,对更好的定位又做了一些改进的工作(同时把multi-regions减少了,把segmentation部分去掉了)。相类似做定位的文章还有AttentionNet:
arxiv - LocNet Improving Localization Accuracy for Object Detection
ICCV2015 - AttentionNet: Aggregating Weak Directions for Accurate Object Detection
有个共同特点是都认为regression比较难,分解成分类问题后更简单一些(当然还有别的原因,reddit上有个讨论,大家可以去看:这里)
--- Boosting Object Proposals: From Pascal to COCO
--- DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers
--- Towards Computational Baby Learning: A Weakly-Supervised Approach for Object Detection
说是weakly supervised learning,其实更像是semi-supervised的learning啊。
其他:
--- Holistically-Nested Edge Detection
--- Scalable Person Re-Identification: A Benchmark
--- Local Convolutional Features with Unsupervised Training for Image Retrieval
--- SALICON: Reducing the Semantic Gap in Saliency Prediction by Adapting Deep Neural Networks
--- Unsupervised Visual Representation Learning by Context Prediction
有空再接着写。待续