位置: IT常识 - 正文

Transformer前沿——语义分割(inature前沿)

编辑:rootadmin
Transformer前沿——语义分割 Transformer 进军语义分割进军方向SETR: Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR 2021)网络结构图实验效果ADE20K 数据集上效果Pascal Voc 数据集上的效果TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation网络结构图实验效果Synapse multi-organ CT 数据集上的效果SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (NeuralPS 2021)网络结构图实验效果ADE20K和Cityscape数据集上的效果进军方向

推荐整理分享Transformer前沿——语义分割(inature前沿),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:inature前沿,前沿啥意思,前沿官网,前沿什么,前沿在哪里,什么叫前沿,前沿dj,前沿官网,内容如对您有帮助,希望把文章链接给更多的朋友!

   Transformer自2017年诞生之后,迅速在NLP领域攻城略地,在极短的时间内晋升成为NLP领域绝对的霸主。Transformer进军CV领域的行动早在2018年就开始了,但是行进缓慢,直到2020年谷歌再次出手,提出Transformer进军CV领域的里程碑式的神作 ViT ,屠榜ImageNet、CIFAR10、CIFAR100,将Transformer在CV领域的潜力展示给世人,大家深受震撼与启发,随即争相涌入ViT研究浪潮中,直接推动了ViT的蓬勃发展。

   在阐述Transformer在CV领域开疆拓土的行军路线前,简单概括一条范式。基于深度学习的方法解决计算机视觉领域的各种任务,诸如图像分类、目标检测、语义分割、实例分割等,都遵循统一的范式,即,特征提取模块+任务模块。 特征提取模块 + 分类器 = 图像分类网络 特征提取模块 + 检测器 = 目标检测网络 特征提取模块 + 分割器 = 语义分割网络 …   到这里,读者朋友可能已经猜到了,Transformer可以取代语义分割任务中的特征提取模块。但Transformer是否比原本基于 CNN 的特征提取模块更好?答案是肯定的, CNN:级联卷积虽能扩大感受野,但是有效感受野只占理论感受野很小一部分,也就是说,卷积无法直接提取长距离信息;Transformer:提取到的特征向量有更丰富的全局上下文信息。\begin{aligned} CNN &: 级联卷积虽能扩大感受野,但是有效感受野只占理论感受野很小一部分,也就是说,卷积无法直接提取长距离信息;\\ Transformer &: 提取到的特征向量有更丰富的全局上下文信息。 \end{aligned}CNNTransformer​:级联卷积虽能扩大感受野,但是有效感受野只占理论感受野很小一部分,也就是说,卷积无法直接提取长距离信息;:提取到的特征向量有更丰富的全局上下文信息。​    至此,我们了解到,用Transformer取代语义分割中的特征提取模块是可行的,接下来,首先介绍Transformer在语义分割领域的开山制作 SETR

SETR: Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers (CVPR 2021)

SETR 是 Segmentation Transformer 前两个字母的组合

作者单位是 复旦、牛津大学、萨里大学、腾讯优图、Facebook

网络结构:ViT 特征提取 + 多层次特征融合 + 解码器

网络结构图

  在语义分割中特征提取模块又称编码器,分割器又称解码器,SETR中直接采用 ViT 中 24 层做高层语义上下文建模。    ViT 特征提取:ViT先将输入图像等分为许多个patch,然后通过 展平(Flatten) 和 线性映射(Linear Projection) 操作将这些patch映射为序列,然后加上各自的位置编码,输入Transformer中做特征提取。   多层次特征融合:编码器中包括 24个 Transformer Layer,为了同时获得高层语义和低层语义信息,作者将 第6、12、18、24层的输出结果从序列恢复到二维,然后按通道维度拼接(concat),得到具有丰富语义层次的特征向量。   解码器:采用的传统的 CNN 逐级解码,将特征向量的宽高恢复到原图像大小,扩大宽高的同时缩减通道数为类别数。

实验效果

在ADE20K取得 50.28%的mIoU,这是该数据集首次出现mIoU超过50%的记录,同时在 Pascal Context取得 55.83%的mIoU,均是 STOA效果。

ADE20K 数据集上效果

Pascal Voc 数据集上的效果

TransUNet: Transformers Make Strong Encoders for Medical Image Segmentation

面向医学图像分割,结合 擅于长距离上下文建模的Transformer 和 擅于捕捉低层细节信息的UNet。

Transformer前沿——语义分割(inature前沿)

作者单位:约翰霍普金斯大学、电子科技大学、斯坦福大学

网络结构:CNN特征提取 + 长距离上下文建模 + UNet解码器

网络结构图

  CNN特征提取:级联卷积提取特征向量,各个stage的输出用于跳跃连接。

  长距离上下文建模:使用12个Transformer层对CNN特征提取模块中得到特征向量,进一步做长距离上下文建模。

  UNet解码器:跳跃连接,逐级解码。

实验效果Synapse multi-organ CT 数据集上的效果

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers (NeuralPS 2021)

作者单位:香港大学、南京大学、英伟达、加州理工大学

网络结构:Mix-FFN取代位置嵌入 + Efficient Self-Attention缩减时间复杂度 + Overlapped patch Merging 保留局部连续性 + 极简decoder

网络结构图

  Mix-FFN:ViT中位置编码的分辨率是固定的,在模型测试使用阶段,输入图像的分辨率并不固定,因此如果采用位置编码,则需通过重采样获得位置编码,显然,这会影响模型预测。本文作者认为通过填充零,卷积核尺寸3x3的卷积可以获得位置信息。具体做法是在一个简单的 前馈神经网络(FFN)中加入3x3 Conv,公式表示如下: xout=MLP⁡(GELU⁡(Conv⁡3×3(MLP⁡(xin))))+xin\mathbf{x}_{o u t}=\operatorname{MLP}\left(\operatorname{GELU}\left(\operatorname{Conv}_{3 \times 3}\left(\operatorname{MLP}\left(\mathbf{x}_{i n}\right)\right)\right)\right)+\mathbf{x}_{i n}xout​=MLP(GELU(Conv3×3​(MLP(xin​))))+xin​

  Efficient Self-Attention:作者指出经典的自注意力机制算法时间复杂度为O(N2)O(N^2)O(N2),其中N为序列的长度。在ViT中序列长度 N 通常等于 H*W,其中H、W分别为图像高和宽。作者指出对于高分辨率图像,自注意力机制的时间复杂度太大,因此提出更高效的自制注意力算法。核心步骤为: 1)通过 reshape 操作,将输入序列的shape从N×CN\times CN×C变为NR×CR\frac{N}{R}\times CRRN​×CR,其中R为缩减系数; 2)通过线性映射,将 shape为 NR×CR\frac{N}{R}\times CRRN​×CR 的序列映射为 shape为 NR×C\frac{N}{R}\times CRN​×C 的序列。 SegFormer的四个stage的缩减系数分别为 64、16、 4、1。

  Overlapped patch Merging:本文的作者认为ViT中采用的 patch merging 算法丢失了patch周围的局部连续性信息。因此提出,重叠的patch划分方法,具体做法通过一个宽高为3的窗口,步长为2,边缘填充为1,进行滑动。通过重叠保留了patch周围的局部连续性。

  极简decoder:作者认为特征提取过程中使用的自注意力机制,已经提取到了充分高层的语义特征,因此在解码阶段,无需通过级联卷积进一步提升模型感受野。因此,本文中的解码器只包含几个简单的线性映射和上采样层。

实验效果ADE20K和Cityscape数据集上的效果

面向移动设备的TopFormer (CVPR 2022),医学分割 DS-TransUNet,…

本文链接地址:https://www.jiuchutong.com/zhishi/299608.html 转载请保留说明!

上一篇:Opencv(C++)系列学习---opencv_contrib安装(opencv1.0)

下一篇:TypeScript(typescript中文文档)

  • 怎样让客服提升店铺的转化率?(如何提高客服的话术)

    怎样让客服提升店铺的转化率?(如何提高客服的话术)

  • 微信怎么取消不显示聊天(微信怎么取消不可见朋友改为公开)

    微信怎么取消不显示聊天(微信怎么取消不可见朋友改为公开)

  • oppok7屏幕刷新率是多少(oppok7屏幕刷新率多少hz)

    oppok7屏幕刷新率是多少(oppok7屏幕刷新率多少hz)

  • 苹果手机拉黑怎么恢复(苹果手机拉黑怎么拉出来的)

    苹果手机拉黑怎么恢复(苹果手机拉黑怎么拉出来的)

  • 接视频没有声音是怎么回事(接视频没有声音是怎么回事手机)

    接视频没有声音是怎么回事(接视频没有声音是怎么回事手机)

  • 为什么筛选显示不出来(为什么筛选显示空白)

    为什么筛选显示不出来(为什么筛选显示空白)

  • 抖音草稿箱的视频怎么保存到相册(抖音草稿箱的视频删除了可以恢复吗)

    抖音草稿箱的视频怎么保存到相册(抖音草稿箱的视频删除了可以恢复吗)

  • 微信添加表情怎么可以删掉(微信添加表情怎么添加动图)

    微信添加表情怎么可以删掉(微信添加表情怎么添加动图)

  • 拼多多换主图有影响吗(拼多多换主图后多久能搜索到)

    拼多多换主图有影响吗(拼多多换主图后多久能搜索到)

  • 什么网盘可以免费上传视频(什么网盘可以免费倍速)

    什么网盘可以免费上传视频(什么网盘可以免费倍速)

  • 苹果手机充电显示橙色(苹果手机充电显示温度过高暂停充电)

    苹果手机充电显示橙色(苹果手机充电显示温度过高暂停充电)

  • 华为p40和40pro区别(华为p40p40pro的区别)

    华为p40和40pro区别(华为p40p40pro的区别)

  • 小米手环为什么连接不上手机(小米手环为什么微信信息来没有提示)

    小米手环为什么连接不上手机(小米手环为什么微信信息来没有提示)

  • 为什么airpods pro不弹窗(为什么airpodspro连上后还是外放)

    为什么airpods pro不弹窗(为什么airpodspro连上后还是外放)

  • 手机qq个人中心在哪里找(手机qq个人中心预约怎么取消)

    手机qq个人中心在哪里找(手机qq个人中心预约怎么取消)

  • 苹果彻底删除照片找回(苹果彻底删除照片不释放内存)

    苹果彻底删除照片找回(苹果彻底删除照片不释放内存)

  • 小米9是什么屏幕(小米9是什么屏幕lcd)

    小米9是什么屏幕(小米9是什么屏幕lcd)

  • airpods耳机6s能用吗(airpods2 6s可以用吗)

    airpods耳机6s能用吗(airpods2 6s可以用吗)

  • 美团订酒店返现怎么领取(美团订酒店怎么订)

    美团订酒店返现怎么领取(美团订酒店怎么订)

  • 手机怎么看淘宝号有几颗心(手机怎么看淘宝店铺开了多久)

    手机怎么看淘宝号有几颗心(手机怎么看淘宝店铺开了多久)

  • 华为手机标准进程是几个(华为手机进入)

    华为手机标准进程是几个(华为手机进入)

  • 苹果手机除尘模式在哪里(苹果手机除尘模式怎么开)

    苹果手机除尘模式在哪里(苹果手机除尘模式怎么开)

  • 天府通app可以坐公交车吗(天府通app可以坐新都公交车吗)

    天府通app可以坐公交车吗(天府通app可以坐新都公交车吗)

  • 如何在Mac OS中访问Windows共享文件夹(做开发会用到)(mac怎么访问路径)

    如何在Mac OS中访问Windows共享文件夹(做开发会用到)(mac怎么访问路径)

  • sccenter.exe - sccenter是什么进程 有什么用

    sccenter.exe - sccenter是什么进程 有什么用

  • from origin ‘null‘ has been blocked by CORS policy: Cross origin requests are only supported for ...

    from origin ‘null‘ has been blocked by CORS policy: Cross origin requests are only supported for ...

  • Python中选择结构是什么(python中选择结构也称为什么)

    Python中选择结构是什么(python中选择结构也称为什么)

  • 奖励旅游的概念解释
  • 有限合伙需要报增值税吗
  • 增值税普通发票怎么开
  • 计提年终奖可以冲减利润
  • 一般纳税人留底税额抵减欠缴税额
  • 其他应付款长期挂账违反什么规定
  • 报关单上单位名称写千克还是kg
  • 再保险业务赔款如何进行税前扣除
  • 个人房产税延期怎么办理
  • 一般纳税人普通发票免税吗
  • 机票电子行程单和发票的区别
  • 发出存货的计价方法对企业财务状况和经营成果有何影响
  • 工商年检社保缴费基数按什么标准填
  • 采购合同安装服务费审价规定
  • 企业买卖股票应注意事项
  • 网络科技定额发票怎么做分录?
  • 交到公户上的钱,还没到账可以退回吗?
  • 商会会费收取
  • Win11安装如何跳过以太网
  • 为什么我的win10
  • 健康助手在哪里找到
  • php ini
  • 操作系统的安全目标主要包括哪些?
  • 报销各种费用怎么做分录
  • 进口货物怎样报关
  • macbook直接显示桌面
  • 住房公积金怎么补缴费
  • 银行对公中收
  • 如何查询税务完税证明
  • 成本核算流程会议记录
  • phpwhile用法
  • 百慕大玛丽号
  • 普通发票和增值税发票都能报销吗
  • php操作字符串
  • 6372056181电子退库收入
  • 企业汇算清缴发现之前收入记多了可以调整吗
  • h5支付功能
  • uniapp下拉
  • MAE详解
  • 核销已计提坏账的应收账款
  • 一般纳税人不动产租赁可以简易征收吗
  • 出租改自用房产税
  • 首涂第二十一套模板
  • python国内下载地址
  • MySQL Proxy的安装及基本命令使用教程
  • 固定资产报废该怎么处理
  • 小规模纳税人附加税费
  • 其他综合收益会影响未分配利润吗
  • 员工借款属于什么现金流量
  • 电子银行承兑汇票
  • 公司送的车还能要回去吗
  • 代理进口产品
  • 销售方会计分录
  • 工资社保医保计算
  • 商业会计做账流程视频
  • 金税卡就是税控盘吗
  • 对公受托理财申购怎么写
  • 零申报资产负债表填0合适吗
  • 原材料会计科目
  • 在查询结果中添加字母
  • sqlserver临时表详解
  • MySql 5.6.14 Win32位免安装解压缩版配置教程
  • MySql 5.6.36 64位绿色版安装图文教程
  • windows自带的几个软件
  • windows 10 周年更新
  • cmd命令start命令
  • PQIBrowser.exe是什么进程 PQIBrowser进程查询
  • win10在更新界面怎么办
  • win10周年版
  • unity www读取本地视频文件和外部视频文件 播放视频动画和视频声音
  • vue.js有哪些组件
  • 根据公司发展需求
  • pycharm支持python3.9
  • unity人物换肤用什么方法
  • 国家税务总局公告2022年第9号
  • 开票系统怎么设置默认税率
  • 2020年职工探亲路费报销最新规定
  • 混合销售定义是什么意思
  • 广州国税地税上班时间
  • 半挂牵引车车船税怎么算
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设