Feature Learning Based Deep Supervised Hashing with Pairwise Labels
Introduction
本篇是发表在IJCAI16上的一篇关于Deep Hash 的一篇Paper。
作者在本篇论文中提出了一种新的Deep Hash方法,DPSH(deep pairwise-supervised hashing),通过深度学习从pair-wise label中学习到图像的特征和hash code,并且在后面的实验中与其他方法比较,取得了较好的结果。
DPSH主要有以下几个方面:
- 通过CNN的conv层学习图像特征
- 使用网络的全连接层学习hash function
- 设计合理的loss function使pair-wise中label相似的话,hash code尽可能相似,也就是相似的label,hash code之间的海明距离比较小,不相似的label,hash code 之间海明距离比较大。
Notation And Problem Definition
在论文中,z代表向量,Z代表矩阵,ZT代表矩阵的转置,||.||2代表向量之间的欧氏距离,sgn(.)代表sgn函数: sgn(x)=1,当x>0时,否则等于-1
假定有n个图片χ={xi}ni=1,xi代表了第i张图片。因为监督的hash方法,图片都是有标签的,可以通过标签之间是否相似构造出相似性矩阵S={sij},sij∈{0,1}。当两个图片相似时,sij为1。当两个图片不相似时,sij=0。可以通过图片的label获取相似性矩阵。
hash function的目标是每一张图片学习到二进制码bi∈{?1,1}c,c是二进制码的长度。并且生成的二进制码保持原有的相似性,即相似的图片的hash code之间的海明距离比较小,不相似的图片之间的hash code的海明距离比较大。整个网络的主要目标就是学习出c个hash function,保证上述的特性。
Model and Learning
网络结构如Figure1 所示:
使用了CNN-F网络模型,上下两个CNN使用具有相同的网络结构,共享同样的权重。网络的具体参数如table 1所示:
Object Function
Experiment
作者实验中主要使用了两个数据集:
- CIFAR-10 60000张图片,32*32大小。总共10类,每类共有图片6000张。
- NUS-WIDE 270000张图片,总共81类,每张图片有多标签,作者使用了21类,每类至少5000张图片。
对手工特征,CIFAR-10提取了500维的gist特征,NUS-WIDE提取了1134维的混合特征。在deep hash 方法中,作者将原始的图片resize到224*224作为网络的输入。
对CIFAR-10数据集,作者每类选取100张图片作为测试集,监督的方法,每类选取500张图片作为训练集,无监督的方法其他的图片作为训练集。在NUS-WIDE数据集中,作者从21从常用的label中每类100张图片作为测试集,监督的方法每类选取500张图片作为训练集。和之前的方法相比,实验结果如下图