码迷,mamicode.com
首页 > 其他好文 > 详细

Siam FCN Reading

时间:2019-04-23 12:53:12      阅读:120      评论:0      收藏:0      [点我收藏+]

标签:header   parent   footer   relative   存在   edit   输入   特征   lis   

 

作者:Yunyao Mao
审稿人:Qiqi Zhou

 

1. 问题描述:

  • 跟踪视频中任意的一个目标.
  • 该目标在视频第一帧被一个矩形框标出.

 

2. 前人工作:

  • 利用待跟踪的视频, 用在线方式学习表观模型(appearance model).

    ——只能学习到相对简单的模型

  • 利用在相关的任务中预训练得到的深度卷积神经网络:
    • shadow method:

      ——不能充分的发挥 end-to-end 训练的优势.

    • SGD 微调:

      ——需要在待跟踪视频上执行 SGD 算法来微调参数, 无法达到实时性的要求.

 

3. 这篇文章: 利用孪生网络进行相似性学习

训练一个 Siamese 网络, 利用相似性计算来实现在搜索图片(search image )上定位范例图片(exemplar image).

  • 训练图片:

    从被标注的视频(每帧中的目标都被 bounding box 框出)中获取用于训练的图片对, 两张图片的帧间隔小于T.

    • search image:

      以目标为中心的大小为255*255的图片, 超出原图的区域用合理的RGB值填充, 不对原图进行缩放.

    • exemplar image:

      以目标为中心的大小为127*127的图片. 具体地, 若 bounding box(红色框) 的大小为 (w, h), padding 的大小为 p, 则调整因子 s 由以下约束决定:

技术图片

技术图片

技术图片

图1:训练数据的获取

 

  • 训练标注:

    由于训练帧的目标都在图片中心, 故而训练帧对应的分数矩阵(score map, 具体意义参见网络结构)的值由如下规则给出: 距离分数矩阵(score map)中心 R 以内的点为正例, 其他点为反例.(需考虑 stride 值, 其中stride值为搜索图片中选出候选图片时的步长, 由φ网络中的池化层决定)

技术图片

 

  • 损失函数:

    单分数的损失函数和分数矩阵(score map)的平均损失函数定义如下, 其中 v 为前向传播得到的分数矩阵(score map), y 为真实标注的分数矩阵(score map).

技术图片

 

  • 网络结构:
    • φ 网络为全卷积网络,用于范例图片(exemplar image)和候选图片(candidate image)的特征提取, 图中的两个 φ 网络共享所有参数.
    • 范例图片经过 φ 网络得到其对应的大小为6x6x128的特征映射.
    • 由于搜索图片(search image)的尺寸大于范例图片(exemplar image), 为了定位目标在搜索图片中的位置,理论上需要需要穷举搜索图片上所有可能的与范例图片尺寸相同的候选子图. 而全卷积网络的计算共享的特性使得这样的穷举在一次前向传播中就能够实现.
    • 全卷积网络作用在搜索图片(search image)上的结果是得到一个大小为22x22x128的特征映射,在这个特征映射中可以截取得到所有可能的候选子图的特征映射.
    • 将两张图片上得到的特征映射作互相关(内积)并作一定处理后得到范例图片与搜索图片上的各候选子图的相似度分数, 以分数矩阵(score map)的形式展现, 其中分数矩阵中的各个点在几何上与搜索图片中相应位置的候选图片一一对应.

    技术图片

技术图片

图2: 孪生网络结构图
技术图片

技术图片

图3: 子网络φ超参数 

 

  • 训练过程:

    以一对训练图片为例, 将范例图片(exemplar image)喂给上图中的 z, 将搜索图片(search image) 喂给上图中的 x , 之后进行前向传播得到分数矩阵(score map), 根据训练标注中所定义的作为 ground truth 的分数矩阵计算loss 执行反向传播算法更新全卷积网络 φ 中的参数.

 

  • 跟踪测试:
    • 利用第一帧中 bounding box 框出的待检测目标,通过与之前在训练集中使用的相同的裁剪填充操作得到范例图片(exemplar image).
    • 以前一帧检测到的目标位置作为中心,通过与之前在训练集中使用的相同的裁剪填充操作得到当前帧的搜索图片( search image )并结合范例图片(exemplar image)执行前向传播算法得到对应分数矩阵(score map).
    • 利用分数矩阵(score map)的最大值点相对于分数矩阵(score map)中心点的偏移乘以 stride 得到当前帧中目标相对于上一帧中目标的偏移量.
    • 目标尺寸空间的跟踪通过对搜索图片(search image)的不同缩放版本来实现. (我还不是很清楚)
    • 考虑到目标移动的连续性, 引入cosine window 来实现对大幅度偏移的惩罚, 目标尺寸的大幅度变化也会受到惩罚和抑制.

 

4. 全卷积网络的特性:

  • 输入大小可变

  • 计算共享

    • 如图 4 中, 当输入的大小大于 16 x 16 时, 输出的大小相应变为 2 x 2. 其中输出结果中的蓝色点对应了输入图片中蓝色部分的结果.
    • 还可以看到, 由于网络中池化层的存在, 当14 x 14 的 "滑动窗口" 移动 2 个像素时才会产生一个输出点. 这个移动距离就是文中提到的 stride 值, 论文Overfeat中将其比喻成 "滑动窗口的" 分辨率.
    • 当然严格的计算共享需要保证网络中没有 padding 的存在.

    技术图片

技术图片

图4: Overfeat中关于全卷积网络特性的解释

Siam FCN Reading

标签:header   parent   footer   relative   存在   edit   输入   特征   lis   

原文地址:https://www.cnblogs.com/USTC-manker/p/10755473.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!