码迷,mamicode.com
首页 > Web开发 > 详细

MobileNet论文学习

时间:2019-09-14 20:52:13      阅读:149      评论:0      收藏:0      [点我收藏+]

标签:复杂   dict   solution   rac   att   code   函数   单位   width   

Abstract

MobileNet 用于 移动或嵌入式应用,其主要方法是通过引入2个超参以在延迟和准确率上做trade off,是一个轻量级结构。可用于object detection, fine-grain classification,face attributes and large scale geo-localization.

技术图片

Introduction

自AlexNet开始的neural network致力于加大网络深度和复杂度,但在诸如robotics等实际应用中无法承受其时间复杂度,因此,作者提出MobileNet这一轻量级网络。

Prior Work

之前的解决训练效率的方法主要分为两种①压缩预训练网络②直接训练小规模网络?

MobileNet的一个特点是根据resorce restrictions调整网络,以兼顾网络规模和训练速度。

MobileNet Architecture

1. Depthwise Separable Convolution

这里的想法是将传统的卷积分解成一个深度卷积和一个1*1的点卷积。深度卷积中对每一个channel使用一个filter,而点卷积则用于合并深度卷积后的输出。深度卷积又分为2层,一层用于filter,一层用于combine。这一系列分解可以大大减少计算量和模型尺寸。

技术图片

标准卷积的复杂度为\(D_K\times D_K\times M \times N \times D_F \times D_F\)

而Depthwise Convolution 复杂度为$ D_K \times D_K \times M \times D_F \times D_F \(,Pointwise Convolution 复杂度为\)M \times n \times D_F \times D_F$ , 故总复杂度仅为原来的 $ \frac {1}{N} + \frac{1}{D_K^2} $

2. Network Structure and Training

技术图片

MobileNet 的主要计算部分是1*1 convolution,而这可以使用高度优化的GEMM 函数解决。

训练过程中,使用了RMSprop优化,但没有使用regularization和data augmentation(由于小型网络不容易出现overfitting)

3. Width Multiplier: Thinner Models

引入参数width multiplier \(\alpha\) 来调整输入输出通道数,对于每一层网络,对于给定的\(\alpha\), 输入channel数变为\(\alpha M\), 输出channel数变为 $\alpha N \(, 参数个数和计算复杂度变为原来的约\)\alpha^2$

4. Resolution Multiplier: Reduced Representation

引入参数resolution multiplier \(\rho\)用来调整image size,计算复杂度变为原来的约\(\rho^2\)

补充知识

1.衡量软件性能的几个指标

吞吐量(throughout):相当一段时间内测量出来的系统单位时间处理的任务数或事务数(TPS)

延迟(latency):延迟一般包括单向延迟(One-way Latency)和往返延迟(Round Trip Latency),指执行一次操作所需时间,实际测量时一般取往返延迟。

并发度(Concurrency),公式如下:并发度 = 吞吐量 * 延迟

2.细粒度图像识别 (fine-grained image recognition),即 精细化分类 。

精细化分类的2种常用方法:

基于图像重要区域定位的方法:该方法集中探讨如何利用弱监督的信息自动找到图像中有判别力的区域,从而达到精细化分类的目的。

基于图像精细化特征表达的方法:该方法提出使用高维度的图像特征(如:bilinear vector)对图像信息进行高阶编码,以达到准确分类的目的。

  1. label-smoothing

在多分类问题中,由于标签是类别的one-hot vector, 因此表征我们已知该样本属于某一类别是概率为1的确定事件,而其他类别概率都为0。要用predicted label 去拟合这样的函数具有两个问题:首先,无法保证模型的泛化能力(generalizing),容易导致过拟合; 其次,全概率和零概率将鼓励所属类别和非所属类别之间的差距尽可能拉大,而由于以上可知梯度有界,因此很难adapt。这种情况源于模型过于相信预测的类别。( Intuitively, this happens because the model becomes too confident about its predictions.)

MobileNet论文学习

标签:复杂   dict   solution   rac   att   code   函数   单位   width   

原文地址:https://www.cnblogs.com/cititude/p/11520136.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!