当前位置：网站首页>5种2D Attention整理（Non-Local、Criss-Cross、SE、CBAM、Dual-Attention）

5种2D Attention整理（Non-Local、Criss-Cross、SE、CBAM、Dual-Attention）

2022-07-17 05:10:00 【byzy】

一、Non-local

原文链接：Non-local Neural Networks | IEEE Conference Publication | IEEE Xplore

1.公式

$y_i=\frac{1}{C(x)}\sum_{\forall j}f(x_i,x_j)g(x_j)$

其中 g(x_j)=W_gx_j 。

的形式可以不同，如

(1)Gaussian：

$f(x_i,x_j)=e^{x_i^\mathrm{T}x_j}$

$C(x)=\sum_{\forall j}f(x_i,x_j)$

(2)Embedded Gaussian:

$f(x_i,x_j)=e^{\theta(x_i)^\mathrm{T}\phi(x_j)}$

$C(x)=\sum_{\forall j}f(x_i,x_j)$

自注意力（self-attention）是non-local在Embedded Gaussian中的特例。因为
$\frac{1}{C(x)}f(x_i,x_j)$
就是对给定的，沿着维度作softmax操作。

(3)点积（embedded）：

$f(x_i,x_j)=\theta(x_i)^\mathrm{T}\phi(x_j)$

C(x)=N

(4)拼接：

$f(x_i,x_j)=\mathrm{ReLU}(w^\mathrm{T}_f[\theta(x_i),\phi(x_j)])$

C(x)=N

其中 $[\cdot ,\cdot ]$ 表示拼接操作； w_f 是将拼接后的向量转换为标量的权重向量。

2.Non-local块

z_i=W_zy_i+x_i

上图为Non-local（embedded Gaussian）的结构。图中蓝色方块为 $1\times 1\times 1$ 卷积； $\oplus$ 和 $\otimes$ 分别表示矩阵加法和矩阵乘法。1024和512代表通道数。softmax操作是对每一行做的。

如果去掉上图中的 $\theta$ 和 $\phi$ ，就变为Gaussian结构；将softmax操作替换为乘以，就变为点积结构。

实际实施时，不改变性能，但减小计算量的方法：在 $\phi$ 和后加入最大池化层。

二、Criss-Cross

原文链接：CCNet: Criss-Cross Attention for Semantic Segmentation | IEEE Conference Publication | IEEE Xplore

网络结构：

1.Criss-Cross模块结构

图中softmax在通道维度做。

2.Affinity操作

对于中每个位置，可以得到其特征 $Q_u\in \mathbb{R}^{{C}'}$ ；同时可以得到中对应位置所在行和列的所有向量集合 $\Omega_u\in\mathbb{R}^{(H+W-1)\times {C}'}$ 。设 $\Omega_{i,u}$ 为 $\Omega_u$ 的第个元素，则Affinity操作定义为

$d_{i,u}=Q_u\Omega^{\mathrm{T}}_{i,u}$

记为Affinity操作的输出矩阵（或在softmax前的矩阵；其位置处的第个元素为 $d_{i,u}$ ），则

上图中，左边的矩阵为，上边的矩阵为，下边的矩阵为，右边的矩阵为； $\otimes$ 表示Affinity操作。

3.Aggregation操作

对于中每个位置，可以得到其特征 $V_u\in \mathbb{R}^C$ 和集合 $\Phi_u\in\mathbb{R}^{(H+W-1)\times C}$ （所在行和列的所有向量集合）。则Aggregation操作为

${H}'_u=\sum_{i\in \left |\Phi_u \right |}A_{i,u}\Phi_{i,u}+H_u$

实际上就是线性组合（以的位置向量(维)的每个元素作为系数/权重，作用于 $\Phi_u$ 中每一个位置的向量(维)，相乘相加，作为的位置元素向量(维)）。

三、Squeeze and Excitation（SE）

原文链接：Squeeze-and-Excitation Networks | IEEE Journals & Magazine | IEEE Xplore

上图中：

$F_{tr}$ 为卷积、特征提取操作（不属于SE模块）；

$F_{sq}$ 为均值池化操作，输出为维向量；

$F_{ex}$ 为2层全连接层加sigmoid操作：

$s=F_{ex}(z,W)=\sigma(g(z,W))=\sigma(W_2\delta(W_1z))$

$F_{scale}$ 即的每个元素作为权重乘上的对应通道得到输出的每个通道：

$\tilde{x}_c=F_{scale}(u_c,s_c)=s_cu_c$

将SE嵌入到ResNet中：

四、CBAM

原文链接：https://arxiv.org/pdf/1807.06521.pdf

CBAM模块结构：

1.通道注意力模块结构

$\begin{aligned} M_c(F)&=\sigma(\textup{MLP}(\textup{AvgPool}(F))+\textup{MLP}(\textup{MaxPool}(F)))\\ &=\sigma(W_1(W_0(F^c_{avg}))+W_1(W_0(F^c_{max}))) \end{aligned}$

其中 $\sigma$ 表示sigmoid函数， $W_0\in\mathbb{R}^{C/r\times C}$ ， $W_1\in\mathbb{R}^{C\times C/r}$ ； W_0 后有ReLU激活函数。

2.空间注意力模块结构

$\begin{aligned} M_s(F)&=\sigma(f^{7 \times 7}([\textup{AvgPool}(F);\textup{MaxPool}(F)]))\\ &=\sigma(f^{7 \times 7}([F^c_{avg};F^c_{max}])) \end{aligned}$

其中 $f^{7\times 7}$ 表示核为 $7\times 7$ 的卷积操作。

将CBAM嵌入ResNet中：

五、Dual-Attention

原文链接：Dual Attention Network for Scene Segmentation | IEEE Conference Publication | IEEE Xplore

网络结构：

1.位置注意力模块结构

图中 B,C,D 的维度与相同； B,C,D 的reshape表示将 $C\times H\times W$ 的矩阵变为 $C\times N$ （其中 N=HW ）; $S\in \mathbb{R}^{N\times N}$ 为attention map； $\otimes$ 表示矩阵乘法；最后的reshape表示将 $C\times N$ 的矩阵变为 $C\times H\times W$ 。最终