当前位置:网站首页>7种视觉MLP整理(上)
7种视觉MLP整理(上)
2022-07-17 05:10:00 【byzy】
如果视觉Transformer中去掉MSA部分,性能是否能达到相同的水平?或者说仅使用MLP来实现视觉任务是否可行?由此考虑到视觉MLP。
一、EANet(External Attention)
原文链接:https://arxiv.org/pdf/2105.02358.pdf



其中
和
为可学习的参数,不依赖于输入。Norm为double normalization(分别对行和列):

二、MLP-Mixer
原文链接:https://arxiv.org/pdf/2105.01601.pdf
Mixer Layer

其中MLP为双层,层间有GELU激活函数。
网络结构
将图像分成不重叠的patch,然后将维度投影为
,得到
输入到Mixer中。Mixer包含2个MLP,第一个作用于列(所有列共享参数),第二个作用于行(所有行共享参数)。

Mixer公式(
为patch数量)

Mixer未使用position embedding,因为token-mixing MLP对输入token的顺序敏感,有可能学习到位置信息。
三、CycleMLP
原文链接:https://arxiv.org/pdf/2107.10224.pdf
实际为上述MLP-Mixer的改进。
传统MLP主要问题:(1)空间维度的MLP不能适应不同的输入大小;(2)channel维度的MLP不能捕捉空间交互。
模型结构

Patch Embedding
使用大小为7的窗口(步长4)将图片分为有重叠的patch。然后将patch通过线性层得到高维特征。
不同stage之间有transition部分,减少token数量,增加channel维度。
CycleMLP块

Channel MLP为2个线性层(channel FC)+GELU。Channel FC和输入图像大小无关,但感受野只有1个像素。
和传统MLP相比,Cycle MLP使用了Cycle FC层,使MLP类模型能够处理不同大小的输入图片。Cycle FC使用了3个并行的Cycle FC operator。

Cycle FC输出(为感受野大小):


伪核
将采样点投影到空间平面得到的区域。
四、gMLP
原文链接:https://arxiv.org/pdf/2105.08050.pdf


gMLP(g表示gating)包含
个相同的块,每个块如下:

其中
为激活函数,
捕捉空间交互(当
时为普通的双层MLP),
为按元素乘法。模型不需要position embedding,因其可由
捕捉。
捕捉空间交互最简单的选择是线性层:

这里
被称为SGU(spatial gating unit)。有点类似于SE(见5种2D Attention整理中的第三个),只是把池化变成线性层。
同样有效的方法是,将
沿channel分为两部分和
,然后


此外可以在SGU中加入一个微型注意力机制,对应的模型称为aMLP。
边栏推荐
猜你喜欢

Custom components of wechat applet

网吧管理系统数据库设计

Edge AI边缘智能:Communication-Efficient Edge AI: Algorithms and Systems(未完待续)

CV-Model【2】:Alexnet

多模态融合方法总结

用facenet源码进行人脸识别测试过程中的一些问题

Could not locate zlibwapi.dll. Please make sure it is in your library path

汉诺塔问题-->递归实现

Unable to determine Electron version. Please specify an Electron version

2. Technology selection of Neusoft cross border e-commerce data warehouse project
随机推荐
正则替换group(n)内容
安卓实现真正安全的退出app
C语言实现迭代实现二分查找
【语音识别】kaldi安装心得
E-commerce user behavior real-time analysis system (flink1.10.1)
运行基于MindSpore的yolov5流程记录
配置tabBar和request网络数据请求
关于线程池中终止任务
SGM: Sequence Generation Model for Multi-Label Classification(用于多标签分类的序列生成模型)
4. Neusoft cross border e-commerce data warehouse project - user behavior data acquisition channel construction of data acquisition channel construction (2022.6.1-2022.6.4)
CV学习笔记【2】:卷积与Conv2d
Use ide to make jar package
BottomSheetDialogFragment仿制抖音评论框
Geo_CNN(Tensorflow版本)
USB转TTL CH340模块安装(WIN10)
JNI实用笔记
尝试解决YOLOv5推理rtsp有延迟的一些方法
static 关键字对作用域和生命周期的影响
2021-04-18
JNI practical notes