标签:包含 特征 cte visio channel tar 线性 pat 结构
「前沿」:最近忙各种各样的事情,更新慢了。抽空写一点。这一篇内容很简单,只需要5min就可以学完。
我们提供了MLP-Mixer架构,之后简称Mixer。这是一个有竞争力,但是概念和技术都很简单的结构,并且没有用到卷积和自注意力。
类似于transformer,Mixer模型的输入依然是图片的Patch经过线性映射之后的序列,简单的说就是embedding。是一个形状如同“patches x channels” 这样的一个特征。其中,我们把图片embedding之后的序列,叫做token。
下图是Mixer的宏观结构图:
Mixer利用了两种MLP层:
「图解读」
「这里,我们可以发现,整个结构确实非常简单,回头试试效果去。」
5分钟就能学会的简单结构 | MLP-Mixer: An all-MLP Architecture for Vision | CVPR2021
标签:包含 特征 cte visio channel tar 线性 pat 结构
原文地址:https://www.cnblogs.com/PythonLearner/p/14859196.html