[Note] Saliency Detection: A Boolean Map Approach

Saliency应该是翻译为显著性。个人理解显著性检测是得到一张图片上每一个像素点的显著程度的过程。对于这个显著程度，直观的理解就是它在这张图上的重要程度。比如，这些照片里组成鸟的像素应该是比背景的像素更加重要，也就是应该有更高的显著性值。知道了各个像素点的显著性之后，可以用来帮助一系列的更加具体的任务，比如这篇文章里的Eye Fixation的预测，也就是预测在这张图片上人会看哪里。还有显著物体的检测，可以更进一步的做物体检测和识别。直接描述这篇文章的方法吧。输入是一张图片，输出是一张Saliency Map，表示每一个像素点上的显著性。根据Saliency Map可以进一步的做更佳具体的任务。得到Saliency Map的过程是先得到一组Boolean Maps，然后每一张Boolean Map得到一张Attention Map，对所有的Attention Maps求均值之后做Dilation就得到了Saliency Map。过程很简洁。假设输入图片有三个颜色通道，随机的选一个颜色取一个阈值。然后据此把图片转成一张0/1的图片，颜色值大于阈值的为1，否则为0。这张0/1的图就是一张Boolean Map。重复这个过程就得到了一组Boolean Maps。Boolean Map如果一块区域和很好的封闭的边缘，那么就有可能是一个显著的物体。所以连着图片边框的区域显著性就会比较低。基于这个假设，把连着图片边框的区域都去掉，然后对全图做归一化，就得到了Attention Map。没有做过Saliency Detection，欢迎指出各种错误。看到一篇文章引用了这个叫BMS的方法就找来看看。然后就发现作者是一起实习的小伙伴。。