位置: IT常识 - 正文

注意力机制(SE,ECA,CBAM,SKNet, scSE,Non-Local,GCNet) Pytorch代码(注意力机制加在CNN的什么位置)

编辑:rootadmin
注意力机制(SE,ECA,CBAM,SKNet, scSE,Non-Local,GCNet) Pytorch代码 注意力机制1 SENet2 ECANet3 CBAM3.1 通道注意力3.2 空间注意力3.3 CBAM4 展示网络层具体信息5 SKNet6 scSE7 Non-Local Net8 GCNet9 注意力机制后期学习到再持续更新!!

推荐整理分享注意力机制(SE,ECA,CBAM,SKNet, scSE,Non-Local,GCNet) Pytorch代码(注意力机制加在CNN的什么位置),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:注意力机制的作用,注意力机制有哪些,注意力机制的作用,注意力机制加在什么位置,注意力机制的作用,注意力机制和自注意力机制的区别,注意力机制加在CNN的什么位置,注意力机制原理,内容如对您有帮助,希望把文章链接给更多的朋友!

2023年,3月2号,新增SKNet代码 2023.3.10 新增 scSE代码 2023.3.11 新增 Non-Local Net 非局部神经网络 2023.3.13新增GCNet

1 SENet

SE注意力机制(Squeeze-and-Excitation Networks):是一种通道类型的注意力机制,就是在通道维度上增加注意力机制,主要内容是是squeeze和excitation.

就是使用另外一个新的神经网络(两个Linear层),针对通道维度的数据进行学习,获取到特征图每个通道的重要程度,然后再和原始通道数据相乘即可。 具体参考Blog: CNN中的注意力机制

小结:

SENet的核心思想是通过全连接网络根据loss损失来自动学习特征权重,而不是直接根据特征通道的数值分配来判断,使有效的特征通道的权重大。

论文认为excitation操作中使用两个全连接层相比直接使用一个全连接层,它的好处在于,具有更多的非线性,可以更好地拟合通道间的复杂关联。

代码: 拆解步骤,forward代码写的比较细节

import torchfrom torch import nnfrom torchstat import stat # 查看网络参数# 定义SE注意力机制的类class se_block(nn.Module): # 初始化, in_channel代表输入特征图的通道数, ratio代表第一个全连接下降通道的倍数 def __init__(self, in_channel, ratio=4): # 继承父类初始化方法 super(se_block, self).__init__() # 属性分配 # 全局平均池化,输出的特征图的宽高=1 self.avg_pool = nn.AdaptiveAvgPool2d(output_size=1) # 第一个全连接层将特征图的通道数下降4倍 self.fc1 = nn.Linear(in_features=in_channel, out_features=in_channel//ratio, bias=False) # relu激活 self.relu = nn.ReLU() # 第二个全连接层恢复通道数 self.fc2 = nn.Linear(in_features=in_channel//ratio, out_features=in_channel, bias=False) # sigmoid激活函数,将权值归一化到0-1 self.sigmoid = nn.Sigmoid() # 前向传播 def forward(self, inputs): # inputs 代表输入特征图 # 获取输入特征图的shape b, c, h, w = inputs.shape # 全局平均池化 [b,c,h,w]==>[b,c,1,1] x = self.avg_pool(inputs) # 维度调整 [b,c,1,1]==>[b,c] x = x.view([b,c]) # 第一个全连接下降通道 [b,c]==>[b,c//4] # 这里也是使用Linear层的原因,只是对Channel进行线性变换 x = self.fc1(x) x = self.relu(x) # 第二个全连接上升通道 [b,c//4]==>[b,c] # 再通过Linear层恢复Channel数目 x = self.fc2(x) # 对通道权重归一化处理 # 将数值转化为(0,1)之间,体现不同通道之间重要程度 x = self.sigmoid(x) # 调整维度 [b,c]==>[b,c,1,1] x = x.view([b,c,1,1]) # 将输入特征图和通道权重相乘 outputs = x * inputs return outputs

结果展示: 提示: in_channel/ratio需要大于0,否则线性层输入是0维度,没有意义,可以根据自己需求调整ratio的大小。

2 ECANet

作者表明 SENet 中的降维会给通道注意力机制带来副作用,并且捕获所有通道之间的依存关系是效率不高的,而且是不必要的。 参考Blog: CNN中的注意力机制

代码: 详细版本:在forward中,介绍了每一步的作用

import torchfrom torch import nnimport mathfrom torchstat import stat # 查看网络参数# 定义ECANet的类class eca_block(nn.Module): # 初始化, in_channel代表特征图的输入通道数, b和gama代表公式中的两个系数 def __init__(self, in_channel, b=1, gama=2): # 继承父类初始化 super(eca_block, self).__init__() # 根据输入通道数自适应调整卷积核大小 kernel_size = int(abs((math.log(in_channel, 2)+b)/gama)) # 如果卷积核大小是奇数,就使用它 if kernel_size % 2: kernel_size = kernel_size # 如果卷积核大小是偶数,就把它变成奇数 else: kernel_size = kernel_size + 1 # 卷积时,为例保证卷积前后的size不变,需要0填充的数量 padding = kernel_size // 2 # 全局平均池化,输出的特征图的宽高=1 self.avg_pool = nn.AdaptiveAvgPool2d(output_size=1) # 1D卷积,输入和输出通道数都=1,卷积核大小是自适应的 # 这个1维卷积需要好好了解一下机制,这是改进SENet的重要不同点 self.conv = nn.Conv1d(in_channels=1, out_channels=1, kernel_size=kernel_size, bias=False, padding=padding) # sigmoid激活函数,权值归一化 self.sigmoid = nn.Sigmoid() # 前向传播 def forward(self, inputs): # 获得输入图像的shape b, c, h, w = inputs.shape # 全局平均池化 [b,c,h,w]==>[b,c,1,1] x = self.avg_pool(inputs) # 维度调整,变成序列形式 [b,c,1,1]==>[b,1,c] x = x.view([b,1,c]) # 这是为了给一维卷积 # 1D卷积 [b,1,c]==>[b,1,c] x = self.conv(x) # 权值归一化 x = self.sigmoid(x) # 维度调整 [b,1,c]==>[b,c,1,1] x = x.view([b,c,1,1]) # 将输入特征图和通道权重相乘[b,c,h,w]*[b,c,1,1]==>[b,c,h,w] outputs = x * inputs return outputs

精简版:

import torchimport torch.nn as nnimport torch.nn.functional as Ffrom torchinfo import summaryimport mathclass EfficientChannelAttention(nn.Module): # Efficient Channel Attention module def __init__(self, c, b=1, gamma=2): super(EfficientChannelAttention, self).__init__() t = int(abs((math.log(c, 2) + b) / gamma)) k = t if t % 2 else t + 1 self.avg_pool = nn.AdaptiveAvgPool2d(1) self.conv1 = nn.Conv1d(1, 1, kernel_size=k, padding=int(k/2), bias=False) self.sigmoid = nn.Sigmoid() def forward(self, x): x = self.avg_pool(x) # 这里可以对照上一版代码,理解每一个函数的作用 x = self.conv1(x.squeeze(-1).transpose(-1, -2)).transpose(-1, -2).unsqueeze(-1) out = self.sigmoid(x) return out

效果展示: 总结: ECANet参数更少!

3 CBAM

CBAM注意力机制是由**通道注意力机制(channel)和空间注意力机制(spatial)**组成。 先通道注意力,后空间注意力的顺序注意力模块!

3.1 通道注意力

输入数据,对数据分别做最大池化操作和平均池化操作(输出都是batchchannel11),然后使用SENet的方法,针对channel进行先降维后升维操作,之后将输出的两个结果相加,再使用Sigmoid得到通道权重,再之后使用View函数恢复**(batchchannel11)**维度,和原始数据相乘得到通道注意力结果! 通道注意力代码:

#(1)通道注意力机制class channel_attention(nn.Module): # 初始化, in_channel代表输入特征图的通道数, ratio代表第一个全连接的通道下降倍数 def __init__(self, in_channel, ratio=4): # 继承父类初始化方法 super(channel_attention, self).__init__() # 全局最大池化 [b,c,h,w]==>[b,c,1,1] self.max_pool = nn.AdaptiveMaxPool2d(output_size=1) # 全局平均池化 [b,c,h,w]==>[b,c,1,1] self.avg_pool = nn.AdaptiveAvgPool2d(output_size=1) # 第一个全连接层, 通道数下降4倍 self.fc1 = nn.Linear(in_features=in_channel, out_features=in_channel//ratio, bias=False) # 第二个全连接层, 恢复通道数 self.fc2 = nn.Linear(in_features=in_channel//ratio, out_features=in_channel, bias=False) # relu激活函数 self.relu = nn.ReLU() # sigmoid激活函数 self.sigmoid = nn.Sigmoid() # 前向传播 def forward(self, inputs): # 获取输入特征图的shape b, c, h, w = inputs.shape # 输入图像做全局最大池化 [b,c,h,w]==>[b,c,1,1] max_pool = self.max_pool(inputs) # 输入图像的全局平均池化 [b,c,h,w]==>[b,c,1,1] avg_pool = self.avg_pool(inputs) # 调整池化结果的维度 [b,c,1,1]==>[b,c] max_pool = max_pool.view([b,c]) avg_pool = avg_pool.view([b,c]) # 第一个全连接层下降通道数 [b,c]==>[b,c//4] x_maxpool = self.fc1(max_pool) x_avgpool = self.fc1(avg_pool) # 激活函数 x_maxpool = self.relu(x_maxpool) x_avgpool = self.relu(x_avgpool) # 第二个全连接层恢复通道数 [b,c//4]==>[b,c] x_maxpool = self.fc2(x_maxpool) x_avgpool = self.fc2(x_avgpool) # 将这两种池化结果相加 [b,c]==>[b,c] x = x_maxpool + x_avgpool # sigmoid函数权值归一化 x = self.sigmoid(x) # 调整维度 [b,c]==>[b,c,1,1] x = x.view([b,c,1,1]) # 输入特征图和通道权重相乘 [b,c,h,w] outputs = inputs * x return outputs3.2 空间注意力

针对输入数据,分别选取数据中最大值所在的维度(batch1h*w),和按照维度进行数据平均操作(batch1hw),然后将两个数据做通道连接(batch2hw),使用卷积操作,将channel维度降为1,之后对结果取sigmoid,得到空间注意力权重,和原始数据相乘得到空间注意力结果。

注意力机制(SE,ECA,CBAM,SKNet, scSE,Non-Local,GCNet) Pytorch代码(注意力机制加在CNN的什么位置)

代码:

#(2)空间注意力机制class spatial_attention(nn.Module): # 初始化,卷积核大小为7*7 def __init__(self, kernel_size=7): # 继承父类初始化方法 super(spatial_attention, self).__init__() # 为了保持卷积前后的特征图shape相同,卷积时需要padding padding = kernel_size // 2 # 7*7卷积融合通道信息 [b,2,h,w]==>[b,1,h,w] self.conv = nn.Conv2d(in_channels=2, out_channels=1, kernel_size=kernel_size, padding=padding, bias=False) # sigmoid函数 self.sigmoid = nn.Sigmoid() # 前向传播 def forward(self, inputs): # 在通道维度上最大池化 [b,1,h,w] keepdim保留原有深度 # 返回值是在某维度的最大值和对应的索引 x_maxpool, _ = torch.max(inputs, dim=1, keepdim=True) # 在通道维度上平均池化 [b,1,h,w] x_avgpool = torch.mean(inputs, dim=1, keepdim=True) # 池化后的结果在通道维度上堆叠 [b,2,h,w] x = torch.cat([x_maxpool, x_avgpool], dim=1) # 卷积融合通道信息 [b,2,h,w]==>[b,1,h,w] x = self.conv(x) # 空间权重归一化 x = self.sigmoid(x) # 输入特征图和空间权重相乘 outputs = inputs * x return outputs3.3 CBAM

将通道注意力模块和空间注意力模块顺序串联得到CBAM模块! 代码:

class cbam(nn.Module): # 初始化,in_channel和ratio=4代表通道注意力机制的输入通道数和第一个全连接下降的通道数 # kernel_size代表空间注意力机制的卷积核大小 def __init__(self, in_channel, ratio=4, kernel_size=7): # 继承父类初始化方法 super(cbam, self).__init__() # 实例化通道注意力机制 self.channel_attention = channel_attention(in_channel=in_channel, ratio=ratio) # 实例化空间注意力机制 self.spatial_attention = spatial_attention(kernel_size=kernel_size) # 前向传播 def forward(self, inputs): # 先将输入图像经过通道注意力机制 x = self.channel_attention(inputs) # 然后经过空间注意力机制 x = self.spatial_attention(x) return x

结果:

4 展示网络层具体信息

安装包

pip install torchstat

使用

from torchstat import statnet = cbam(16)stat(net, (16, 256, 256)) # 不需要Batch维度5 SKNet

这是SENet的改进版,增加了多个分支,每个分支的感受野不同。 论文:https://arxiv.org/pdf/1903.06586

代码:

'''Descripttion: Result: Author: PhiloDate: 2023-03-02 14:55:44LastEditors: PhiloLastEditTime: 2023-03-02 16:01:03'''import torch.nn as nnimport torchclass SKConv(nn.Module): def __init__(self, in_ch, M=3, G=1, r=4, stride=1, L=32) -> None: super().__init__() """ Constructor Args: in_ch: input channel dimensionality. M: the number of branchs. G: num of convolution groups. r: the radio for compute d, the length of z. stride: stride, default 1. L: the minimum dim of the vector z in paper, default 32. """ d = max(int(in_ch/r), L) # 用来进行线性层的输出通道,当输入数据In_ch很大时,用L就有点丢失数据了。 self.M = M self.in_ch = in_ch self.convs = nn.ModuleList([]) for i in range(M): self.convs.append( nn.Sequential( nn.Conv2d(in_ch, in_ch, kernel_size=3+i*2, stride=stride, padding = 1+i, groups=G), nn.BatchNorm2d(in_ch), nn.ReLU(inplace=True) ) ) # print("D:", d) self.fc = nn.Linear(in_ch, d) self.fcs = nn.ModuleList([]) for i in range(M): self.fcs.append(nn.Linear(d, in_ch)) self.softmax = nn.Softmax(dim=1) def forward(self, x): for i, conv in enumerate(self.convs): # 第一部分,每个分支的数据进行相加,虽然这里使用的是torch.cat,但是后面又用了unsqueeze和sum进行升维和降维 fea = conv(x).clone().unsqueeze_(dim=1).clone() # 这里在1这个地方新增了一个维度 16*1*64*256*256 if i == 0: feas = fea else: feas = torch.cat([feas.clone(), fea], dim=1) # feas.shape batch*M*in_ch*W*H fea_U = torch.sum(feas.clone(), dim=1) # batch*in_ch*H*W fea_s = fea_U.clone().mean(-1).mean(-1) # Batch*in_ch fea_z = self.fc(fea_s) # batch*in_ch-> batch*d for i, fc in enumerate(self.fcs): # print(i, fea_z.shape) vector = fc(fea_z).clone().unsqueeze_(dim=1) # batch*d->batch*in_ch->batch*1*in_ch # print(i, vector.shape) if i == 0: attention_vectors = vector else: attention_vectors = torch.cat([attention_vectors.clone(), vector], dim=1) # 同样的相加操作 # batch*M*in_ch attention_vectors = self.softmax(attention_vectors.clone()) # 对每个分支的数据进行softmax操作 attention_vectors = attention_vectors.clone().unsqueeze(-1).unsqueeze(-1) # ->batch*M*in_ch*1*1 fea_v = (feas * attention_vectors).clone().sum(dim=1) # ->batch*in_ch*W*H return fea_vif __name__ == "__main__": x = torch.randn(16, 64, 256, 256) sk = SKConv(in_ch=64, M=3, G=1, r=2) out = sk(x) print(out.shape) # in_ch 数据输入维度,M为分指数,G为Conv2d层的组数,基本设置为1,r用来进行求线性层输出通道的。

结果:

该注意力模块不改变输入数据的大小和维度!详细内容都已经在备注里啦,大家可以自己写一遍,走一遍代码!

6 scSE

网络结构图: 论文地址:http://arxiv.org/pdf/1803.02579v2 重点: 文章是2018年发出的,将两种注意力机制后的数据进行相加,在空间注意力中(Space Attention): 直接就是通过Conv2d(in_ch, 1,kernel_size=1, bias=False)得到一个b * 1 * h * w的数据,然后经过sigmoid进行数据处理,放大重点,缩小非重点,然后将数据与原始数据相乘就得到空间注意力的结果。 在通道注意力中: 需要得到b * ch * 1 * 1 的数据,先是使用一个自适应池化层得到b * ch * 1 * 1 的数据,然后对通道维度先降维在升维,之后使用sigmoid得到权重,和原始数据相乘,得到通道注意力结果。

代码:

'''Descripttion: Result: Author: PhiloDate: 2023-03-07 19:16:52LastEditors: PhiloLastEditTime: 2023-04-07 17:08:14'''import torchimport torch.nn as nnclass sSE(nn.Module): # 空间(Space)注意力 def __init__(self, in_ch) -> None: super().__init__() self.conv = nn.Conv2d(in_ch, 1, kernel_size=1, bias=False) self.norm = nn.Sigmoid() def forward(self, x): q = self.conv(x) # b c h w -> b 1 h w q = self.norm(q) # b 1 h w return x*q # 广播机制 class cSE(nn.Module): # 通道(channel)注意力 def __init__(self, in_ch) -> None: super().__init__() self.avgpool = nn.AdaptiveAvgPool2d(1) # b c 1 1 self.relu = nn.ReLU() self.Conv_Squeeze = nn.Conv2d(in_ch, in_ch//2, kernel_size=1, bias=False) self.norm = nn.Sigmoid() self.Conv_Excitation = nn.Conv2d(in_ch//2, in_ch, kernel_size=1, bias=False) def forward(self, x): z = self.avgpool(x) # b c 1 1 z = self.Conv_Squeeze(z) # b c//2 1 1 z = self.relu(z) z = self.Conv_Excitation(z) # b c 1 1 z = self.norm(z) return x*z.expand_as(x) # 扩展class scSE(nn.Module): def __init__(self, in_ch) -> None: super().__init__() self.cSE = cSE(in_ch) self.sSE = sSE(in_ch) def forward(self, x): c_out = self.cSE(x) s_out = self.sSE(x) return c_out + s_outx = torch.randn(4, 16, 4, 4)net = scSE(16)print(net(x).shape)

结果:

该注意力模块不改变输入数据的大小和维度!代码实现也较为简单,大家可以自己走一遍!

7 Non-Local Net

结构图: 论文地址:https://arxiv.org/pdf/1711.07971 讲解: 整体流程就是公式上写的那样,对一个数据进行三个不同的变化,首先使用一个11的卷积层和维度变换得到θ\thetaθ, 使用一个11的卷积层通过x得到φ\varphiφ ,将这两个数据进行举证乘法,得到f,然后对f进行softmax得到数据权重,将数据和g相乘,得到最后的结果,不过数据维度和通道数不一样,因此使用一个1*1的卷积层和view函数进行数据恢复,最后将得到数据和原始的x进行相加(类似于残差连接的一样),就得到最后的结果了。 代码:

'''Descripttion: Result: Author: PhiloDate: 2023-03-10 16:50:42LastEditors: PhiloLastEditTime: 2023-03-11 16:41:50'''import torchfrom torch import nnfrom torch.nn import functional as Fclass NonLocalBlockND(nn.Module): def __init__(self, in_channels, inter_channels=None, dimension=2, sub_sample=True, bn_layer=True) -> None: super().__init__() """ in_channels: 输入通道 inter_channels: 中间数据通道 dimension: 输入数据的维度 sub_sample: 是否进行最大池化 一般是True bn_layer: 一般是True """ assert dimension in [1, 2, 3] self.dimension = dimension self.sub_sample = sub_sample self.in_channels = in_channels self.inter_channels = inter_channels if self.inter_channels is None: self.inter_channels = self.in_channels // 2 if self.inter_channels == 0: self.inter_channels = 1 if dimension == 3: conv_nd = nn.Conv3d max_pool_layer = nn.MaxPool3d(kernel_size=(1,2,2)) bn = nn.BatchNorm3d elif dimension == 2: conv_nd = nn.Conv2d max_pool_layer = nn.MaxPool2d(kernel_size=(2, 2)) bn = nn.BatchNorm2d else: conv_nd = nn.Conv1d max_pool_layer = nn.MaxPool1d(kernel_size=(2)) bn = nn.BatchNorm1d self.g = conv_nd(in_channels=self.in_channels, out_channels=self.inter_channels, kernel_size=1) if bn_layer: self.W = nn.Sequential( conv_nd(in_channels=self.inter_channels, out_channels=self.in_channels, kernel_size=1),bn(self.in_channels)) nn.init.constant_(self.W[1].weight, 0) # 使用 0 对 参数进行赋初值 nn.init.constant_(self.W[1].bias, 0) # 使用 0 对参数进行赋初值 else: self.W = conv_nd(in_channels=self.inter_channels, out_channels=self.in_channels, kernel_size=1) nn.init.constant_(self.W.weight, 0) nn.init.constant_(self.W.bias, 0) self.theta = conv_nd(in_channels=self.in_channels, out_channels=self.inter_channels, kernel_size=1) self.phi = conv_nd(in_channels=self.in_channels, out_channels=self.inter_channels, kernel_size=1) if sub_sample: self.g = nn.Sequential(self.g, max_pool_layer) self.phi = nn.Sequential(self.phi, max_pool_layer) def forward(self, x): batch_size = x.size(0) g_x = self.g(x).view(batch_size, self.inter_channels, -1) # b c w*h 这里还经过了maxpool的操作,maxpool:w_out = (w-k_size+2*pad)/k_size + 1 print(g_x.shape, "self.g后的数据") g_x = g_x.permute(0, 2, 1) #维度变化 b wh c theta_x = self.theta(x).view(batch_size, self.inter_channels, -1) # b c w*h 这里没有经过maxpool操作 print(theta_x.shape, "self.theta后的数据") theta_x = theta_x.permute(0, 2, 1) # b wh c phi_x = self.phi(x).view(batch_size, self.inter_channels, -1) # b c w*h 这里经过了maxpool print(phi_x.shape, "self.phi_x后的数据") f = torch.matmul(theta_x, phi_x) # 1024*8 矩阵乘 8*256 = 1024*256 print(f.shape) f_div_C = F.softmax(f, dim=-1) # 对 最后一维做softmax y = torch.matmul(f_div_C, g_x) # 1024*256 * 256*8 = 1024*8 print(y.shape, "g_x和y矩阵乘后的结果") y = y.permute(0, 2, 1).contiguous() # 这里的contiguous类似与clone 否则后期对y修改数据,也会对原始数据进行修改 # 得到 batch_size*8*1024 y = y.view(batch_size, self.inter_channels, *x.size()[2:]) # *x.size()[2:] 这个花里胡哨的,就是获取x的h 和 w; 再将数据恢复到原始格式 W_y = self.W(y) # 这里将b inter_ch w h -> b in_ch w h z = W_y + x # 进行残差连接 return zx = torch.randn(16, 16, 32, 32)net = NonLocalBlockND(in_channels=16)print(net(x).shape)

结果:

数据的中间输出也打印出来了,建议大家跟着写一遍 加深理解!

8 GCNet

结构: 论文地址:https://arxiv.org/abs/1904.11492 重点: 该模型是环节Non-Loca Net计算量过大的情况,代码实现的时候,有不同的组合,一种是支路与主路的Multial操作,一种是如图所示的Add操作,具体选择可以参考代码 代码:

'''Descripttion: Result: Author: PhiloDate: 2023-03-11 17:55:19LastEditors: PhiloLastEditTime: 2023-03-13 20:25:19'''import torchimport torch.nn as nnclass GlobalContextBlock(nn.Module): def __init__(self, inplanes, ratio, pooling_type="att", fusion_types=('channel_mul')) -> None: super().__init__() valid_fusion_types = ['channel_add', 'channel_mul'] assert pooling_type in ['avg', 'att'] # assert all([f in valid_fusion_types for f in fusion_types]) assert len(fusion_types) > 0, 'at least one fusion should be used' self.inplanes = inplanes self.ratio = ratio self.planes = int(inplanes*ratio) self.pooling_type = pooling_type self.fusion_type = fusion_types if pooling_type == 'att': self.conv_mask = nn.Conv2d(inplanes, 1, kernel_size=1) self.softmax = nn.Softmax(dim=2) else: self.avg_pool = nn.AdaptiveAvgPool2d(1) if 'channel_add' in fusion_types: self.channel_add_conv = nn.Sequential( nn.Conv2d(self.inplanes, self.planes, kernel_size=1), nn.LayerNorm([self.planes, 1, 1]), nn.ReLU(inplace=True), nn.Conv2d(self.planes, self.inplanes, kernel_size=1) ) else: self.channel_add_conv = None if 'channel_mul' in fusion_types: self.channel_mul_conv = nn.Sequential( nn.Conv2d(self.inplanes, self.planes, kernel_size=1), nn.LayerNorm([self.planes, 1, 1]), nn.ReLU(inplace=True), nn.Conv2d(self.planes, self.inplanes, kernel_size=1) ) else: self.channel_mul_conv = None def spatial_pool(self, x): batch, channel, height, width = x.size() if self.pooling_type == 'att': # 这里其实就是空间注意力 最后得到一个b c 1 1的权重 input_x = x input_x = input_x.view(batch, channel, height*width) # -> b c h*w input_x = input_x.unsqueeze(1) # -> b 1 c hw context_mask = self.conv_mask(x) # b 1 h w context_mask = context_mask.view(batch, 1, height*width) # b 1 hw context_mask = self.softmax(context_mask) # b 1 hw context_mask = context_mask.unsqueeze(-1) # b 1 hw 1 context = torch.matmul(input_x, context_mask) # b(1 c hw * 1 hw 1) -> b 1 c 1 context = context.view(batch, channel, 1, 1) # b c 1 1 else: context = self.avg_pool(x) # b c 1 1 return context def forward(self, x): context = self.spatial_pool(x) out = x if self.channel_mul_conv is not None: channel_mul_term = torch.sigmoid(self.channel_mul_conv(context)) # 将权重进行放大缩小 out = out * channel_mul_term # 与x进行相乘 if self.channel_add_conv is not None: channel_add_term = self.channel_add_conv(context) out = out + channel_add_term return outif __name__ == "__main__": input = torch.randn(16, 64, 32, 32) net = GlobalContextBlock(64, ratio=1/16) out = net(input) print(out.shape)

结果:

建议自己在纸上或者是打断点走一遍代码!

9 注意力机制后期学习到再持续更新!!

参考博客: CNN注意力机制 ECANet

本文链接地址:https://www.jiuchutong.com/zhishi/297744.html 转载请保留说明!

上一篇:HTML与PyCharm

下一篇:YOLOv5系列全新升级——yolov5-v7.0实时实例分割全面集成(yolov5配置)

  • 淘宝网店主必学视觉营销知识(淘宝网店入门)

    淘宝网店主必学视觉营销知识(淘宝网店入门)

  • 苹果怎么隔空投送(苹果怎么隔空投送给附近的人)

    苹果怎么隔空投送(苹果怎么隔空投送给附近的人)

  • 荣耀x10如何放内存卡(荣耀x10如何放内存卡视频)

    荣耀x10如何放内存卡(荣耀x10如何放内存卡视频)

  • kindle伤眼睛吗(kindle到底伤不伤眼)

    kindle伤眼睛吗(kindle到底伤不伤眼)

  • 怎么去掉抖音上的字(怎么去掉抖音上的水印)

    怎么去掉抖音上的字(怎么去掉抖音上的水印)

  • 华为型号askaloox(华为型号askal20)

    华为型号askaloox(华为型号askal20)

  •   qq头像换了没反应(qq头像换了之后别人多久可以看到)

      qq头像换了没反应(qq头像换了之后别人多久可以看到)

  • 买的新手机老卡怎么回事(新买手机老是卡怎么办)

    买的新手机老卡怎么回事(新买手机老是卡怎么办)

  • 光能充电电子秤怎么充电(光能充电电子秤突然不显示怎么办)

    光能充电电子秤怎么充电(光能充电电子秤突然不显示怎么办)

  • 苹果se2多重(苹果se2有多重)

    苹果se2多重(苹果se2有多重)

  • 淘宝直播点赞有上限吗(淘宝直播点赞有什么好处和坏处)

    淘宝直播点赞有上限吗(淘宝直播点赞有什么好处和坏处)

  • 淘宝严重违规有哪几种类型(淘宝严重违规有以下哪些行为?)

    淘宝严重违规有哪几种类型(淘宝严重违规有以下哪些行为?)

  • 微信清空聊天记录能节省空间吗(微信清空聊天记录还能查到吗)

    微信清空聊天记录能节省空间吗(微信清空聊天记录还能查到吗)

  • 爱上wifi是免费的么(爱上wi-fi)

    爱上wifi是免费的么(爱上wi-fi)

  • 手机wps怎么复制(手机wps怎么复制表格到另一个文档)

    手机wps怎么复制(手机wps怎么复制表格到另一个文档)

  • 小米9怎么投屏(小米9怎么投屏到投影仪)

    小米9怎么投屏(小米9怎么投屏到投影仪)

  • 小米手机怎么关掉振动(小米手机怎么关闭安全守护模式)

    小米手机怎么关掉振动(小米手机怎么关闭安全守护模式)

  • 硬盘启动不了(steam下载到硬盘启动不了)

    硬盘启动不了(steam下载到硬盘启动不了)

  • 鼠标滚轮失灵上下乱窜(鼠标滚轮失灵上下移动)

    鼠标滚轮失灵上下乱窜(鼠标滚轮失灵上下移动)

  • 菲律宾可以用微信吗(菲律宾可以用微信聊天吗)

    菲律宾可以用微信吗(菲律宾可以用微信聊天吗)

  • internet采用的是什么体系结构(internet采用的拓扑结构)

    internet采用的是什么体系结构(internet采用的拓扑结构)

  • 小红书可以个人开店吗(小红书可以个人卖货嘛)

    小红书可以个人开店吗(小红书可以个人卖货嘛)

  • 电话卡里的话费可以转吗(电话卡里的话费可以转到微信吗)

    电话卡里的话费可以转吗(电话卡里的话费可以转到微信吗)

  • 最贵的域名是什么(最贵的域名是什么名字)

    最贵的域名是什么(最贵的域名是什么名字)

  • Vue3 中 createWebHistory 和 createWebHashHistory 的区别

    Vue3 中 createWebHistory 和 createWebHashHistory 的区别

  • phpcms后台登录验证码显示不出来(phpcms v9用户手册)

    phpcms后台登录验证码显示不出来(phpcms v9用户手册)

  • 应纳税所得额高了好还是低了好
  • 什么是抄报税证明
  • 摊余成本的构成内容
  • 企业所得税季度预缴纳税申报表
  • 销项税额和进项税额发票怎么区别
  • 一般纳税人跨月红冲专票怎么报税
  • 公司股东投资比例
  • 关联方交易影响因素
  • 企业所得税弥补亏损年限
  • 怎么计算股票的压力位和支撑位
  • 外聘技术人员合同
  • 公司注销清算时房租到期怎么办
  • 股权0元转让
  • 工会经费可不可以不交
  • 航天发票上传不成功怎么手动上传
  • 2020年资金账簿印花税最新规定
  • 劳务费代驾计入什么科目?
  • 专票开票银行一定要对吗
  • 房地产企业预收款什么时候确认收入
  • 预借差旅费计入其他应收款吗
  • 家具螺丝螺母一般在哪里卖
  • mac系统如何连接北通手柄
  • 苹果电脑怎么截屏ctrl加什么
  • 电脑开始菜单在右边怎么调回来
  • 个人福利需要缴纳个税吗
  • 应付票据贴现息计入
  • 还款本息和本金哪个划算
  • 外购货物用于不动产在建工程
  • php字符串赋值
  • 公益性捐赠支出的标准
  • 计算所得税费用公式excel
  • yolov5怎么改进
  • 增值税发票可以作废重新开吗
  • 常见浏览器兼容软件
  • unity常用脚本语言
  • 帝国最新版本
  • 处置长期股权投资产生的投资收益是什么
  • 网上报税优点与缺点
  • 哪些人不要申报个税
  • python requests读取服务器响应
  • 织梦模板安装完整教程
  • 为什么社保明细导不出来
  • 分公司非独立核算怎么报税
  • 没有虚拟化iommu
  • 免征增值税政策的政策有哪些?
  • 权益法转其他权益工具
  • 其他税后扣减
  • 银行承兑汇票到期无力支付计入什么科目
  • 员工的车是否可以抵税
  • 无形资产转让计入什么科目
  • 会计做账过程中遇到的问题
  • 新手会计做账怎么做账
  • 其他商业项目
  • sql取汉字
  • window7 32位系统
  • 修改远程桌面端口命令是什么
  • win7装vmware
  • dns server配置
  • centos5.4 安装
  • 电脑重装系统win8
  • win10更新预览版
  • win7系统无法安装ie8
  • opengl坐标系原点
  • js下拉加载
  • 何为黄金茶
  • android 生成图片
  • css placement
  • jquery绑定onchange
  • js中调用java
  • jQuery使用animate实现ul列表项相互飘动效果示例
  • Unity GameObject.activeSelf, GameObject.activeInHierarchy,GameObject.SetActive和SetActiveRecursively
  • Javascript Object 对象学习笔记
  • 方块大作战百科
  • 河南城乡居民医疗保险电话
  • 百旺税控盘口令认证失败pin锁定怎么办
  • 外经证开错了怎么办
  • 电子保险怎么查询车船税
  • 国税总局编制这次怎么调整
  • 湖南省水利建设基金
  • 税务筹划企业所得税案例分析题
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设