位置: IT常识 - 正文

Vision Transformer 模型详解

编辑:rootadmin
Vision Transformer 模型详解 目录前言模型结构实验总结Question Summary前言

推荐整理分享Vision Transformer 模型详解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

虽然说transformer已经是NLP领域的一个标准:BERT模型、GPT3或者是T5模型,但是当年

Vision transformer 提出时用transformer来做CV还是很有限的; 在视觉领域,自注意力要么是跟

卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持

整体的结构不变; ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,因为其

模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域

应用的里程碑著作,也引爆了后续相关研究。

模型结构

作者将transformer结构去除掉decoder部分后经过改进将其运用到视觉领域。vision transformer模型结构主要包括三部分:

patch embeding 部分transformer encoder部分MLP head部分。

整个模型结构可以分为五个步骤进行:

1、将图片切分成多个patch。

2、将得到的patches经过一个线性映射层后得到多个token embedding。

3、将得到的多个token embedding concat一个额外的CLS token,然后和位置编码相加,构成完整的encoder模块的输入。

4、 将相加后的结果传入Transformer Encoder模块。

5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。

Transformer Block:

Layer Norm层:标准归一化,为了更好的收敛。MHA层:多头自注意力机制输入和输出做残差连接Layer NormMLP层: Linear + GRLU +Linear +Dropout

L个Transformer Block 构成一个完整的Transformer Encoder模块。经过Transformer Block 后维度不变。

实验

Vision Transformer 模型详解

给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的。 用vision transformer 模型和卷积神经网络(resnet)做了对比,实验发现在中小数据集上,

卷积神经网络的效果比vit模型的效果要好(原因在Question Summary)。随着数据及规模的增大,

ViT模型的效果要逐渐优于卷积神经网络的效果。

用vision transformer 模型和卷积神经网络(resnet)以及Hybrid结构(混合结构)做了对比,

结果相同,同时Hybrid结构在中小型数据集上也能够达到能好的性能(毕竟结合了卷积神经网络和

Transformer的优点),但随着数据集的增大,发现Transform的结构要比Hybrid结构性能优秀。 作者还做了关于自注意力机制的实验,从实验结果我们可以看出,模型可以很好的利用自注意力机制学习到图片的特征。 做了关于CLS Token和GAP以及关于不同维度的消融实验。ViT模型最后利用CLS Token做分类预

测,而卷积神经网络则是利用GAP(全局平均池化),从实验结果可以看出,CLS Token 可以和

GAP 达到同样的效果,但是要求不同的学习率。

总结

如果在足够多的数据上做预训练,也可以不需要卷积神经网路,直接使用标准的Transformer也能够

把视觉问题解决的很好;尤其是当在大规模的数据上面做预训练然后迁移到中小型数据集上面使用的

时候,Vision Transformer能够获得跟最好的卷积神经网络相媲美的结果。

Question Summary

在中小型数据集上,ViT模型不如卷积神经网络的原因:

卷积神经网络存在归纳偏置:locality 和translation equivariance。有了归纳偏置后,就有了先验知识,可以利用较少的数据去学习一个比较好的模型,而transformer没有先验知识,所以需要数据自己学习,所以在大数据集上的性能比中小数据集上。

位置编码:

如果不标注位置,在Transform看来图片就是一样的,所以需要加上位置编码。

CLS Token:

在NLP的分类任务中,被看作一个全局的对句子的理解,在这里可以看作一个图像的整体特征。

MLP Head:

一个通用的分类头,最后用交叉熵函数进行模型的训练。

论文:原论文链接 代码:pytorch代码

本文链接地址:https://www.jiuchutong.com/zhishi/294588.html 转载请保留说明!

上一篇:vue:聊天对话框的实现(vue聊天系统)

下一篇:【uni-app】小程序实现微信授权登陆(附流程图)(unigui 小程序)

  • 支付宝待付款在哪里(支付宝待付款在哪里查看)

    支付宝待付款在哪里(支付宝待付款在哪里查看)

  • 流量不够用怎么办(流量不够用怎么买流量包)

    流量不够用怎么办(流量不够用怎么买流量包)

  • 卡贴机为什么那么便宜(卡贴机今天都用不了了?)

    卡贴机为什么那么便宜(卡贴机今天都用不了了?)

  • 安卓连接airpods声音小(安卓连接airpods pro)

    安卓连接airpods声音小(安卓连接airpods pro)

  • 苹果13系统哪个机型可以更新(苹果13系统哪个版本最好用)

    苹果13系统哪个机型可以更新(苹果13系统哪个版本最好用)

  • 华为安全支付怎么解除(华为安全支付怎么解除绑定)

    华为安全支付怎么解除(华为安全支付怎么解除绑定)

  • mx330显卡什么级别(mx330显卡相当于什么级别)

    mx330显卡什么级别(mx330显卡相当于什么级别)

  • iphone6s强制重启(iphone6s强制重启怎么操作)

    iphone6s强制重启(iphone6s强制重启怎么操作)

  • 抖音大号小号都能直播吗(抖音大号小号都播会不会没有流量)

    抖音大号小号都能直播吗(抖音大号小号都播会不会没有流量)

  • 兆芯与龙芯的区别(兆芯芯片)

    兆芯与龙芯的区别(兆芯芯片)

  • 华为p20有没有人脸解锁(华为p20有没有人工智能)

    华为p20有没有人脸解锁(华为p20有没有人工智能)

  • 哔哩哔哩是哪个公司旗下的(哔哩哔哩是哪个城市的)

    哔哩哔哩是哪个公司旗下的(哔哩哔哩是哪个城市的)

  • ipad不激活可以查序列号吗(ipad不激活可以连接爱思助手吗)

    ipad不激活可以查序列号吗(ipad不激活可以连接爱思助手吗)

  • 水冷主机和普通主机的区别(水冷主机和普通的区别)

    水冷主机和普通主机的区别(水冷主机和普通的区别)

  • gtx1070配什么内存

    gtx1070配什么内存

  • 手机屏幕出现蓝色阴影是怎么回事(手机屏幕出现蓝色边框怎么取消)

    手机屏幕出现蓝色阴影是怎么回事(手机屏幕出现蓝色边框怎么取消)

  • 微信发定位在哪里设置(微信发定位在哪设置精准位置信息)

    微信发定位在哪里设置(微信发定位在哪设置精准位置信息)

  • 苹果xr设备管理在哪(苹果xr设备管理在哪里)

    苹果xr设备管理在哪(苹果xr设备管理在哪里)

  • 出国后微信还能用吗(出国后微信还能加好友吗)

    出国后微信还能用吗(出国后微信还能加好友吗)

  • 为什么我的朋友圈只能发10秒视频(为什么我的朋友国籍被注销)

    为什么我的朋友圈只能发10秒视频(为什么我的朋友国籍被注销)

  • 6跟6s区别大吗(iphone6和6s的区别大吗)

    6跟6s区别大吗(iphone6和6s的区别大吗)

  • win10专业版激活秘钥神key推荐 电脑系统激活码分享(win10专业版激活密钥永久)

    win10专业版激活秘钥神key推荐 电脑系统激活码分享(win10专业版激活密钥永久)

  • Vue3组件挂载之创建组件实例详解(vue挂载dom)

    Vue3组件挂载之创建组件实例详解(vue挂载dom)

  • mysql有什么语法规范(mysql基本语法)

    mysql有什么语法规范(mysql基本语法)

  • 2021新版利润表
  • 自建办公楼销售要交土地增值税吗
  • 简易计税项目税金要计入成本吗
  • 企业重组失败会怎么样
  • 租了房子再转租
  • 支票去银行怎么进账
  • 服务费和佣金的关系
  • 印花税的征税对象包括
  • 仪器检测费发票哪一类
  • 代缴代扣个人所得税手续费
  • 企业因购买材料开出的商业汇票属于什么会计科目
  • 生产成本里面的工会经费
  • 代收代付如何进行账务处理?
  • 汽车违章罚款在哪里缴纳
  • 增值税税率和征收率有什么区别
  • 项目部临时设施平面图
  • 工程结算审计费用谁承担
  • 新注册公司季度资产为零
  • 四项服务加计扣除政策2023
  • 土地增值税进项税
  • 其他应付款调整
  • win7 bootmode
  • 营业外收入怎么做会计凭证
  • 通行费怎么认证
  • 非工资收入个人所得税税率
  • 固定资产计提完折旧怎么处理
  • 电脑扩展卷是灰色的的怎么办
  • 企业在弥补亏损和提取法定盈余公积前一般不得分配利润
  • 电脑时间同步不了解决方法
  • 股权投资借差
  • 增值税留抵退税账务处理
  • dm分区工具图解教程
  • 工业企业采购部工作职责
  • 现金折扣的会计分录处理
  • 财政预算单位可以既是省级又是中央
  • 竣工结算与竣工决算的主要区别是什么
  • 股票溢价发行会亏本吗
  • 路由配置中network怎么用
  • vue自定义页面
  • php使用curl
  • php自定义变量的方法是
  • 存货采购成本有余额吗
  • 季节性用工法律规定
  • 产成品报废会计处理
  • 在线客服系统登录
  • cms静态页面生成原理
  • mysql内连接查询使用汉语作为官方语言的所有国家
  • vue导航方式
  • python如何对齐输出
  • celery eventlet
  • 企业增值税抵扣包括哪些内容
  • sqlserver2012完全卸载
  • 一般纳税人的建筑企业可以选择简易征收的条件
  • 企业的预付账款属于金融资产吗
  • 专用发票红冲有时间限制吗
  • 信用减值损失是负数是什么意思
  • 派发股利政策
  • 长期股权投资损益调整
  • 企业实收资本的用途
  • 事业单位可以购买工作服吗
  • 对公户收到一笔款怎么做账处理了?
  • 预付账款属于哪一类账户
  • 什么是暂估入账金额
  • 继续教育专项扣除标准是多少
  • 进项发票已认证未抵扣分录
  • 数据库表的行数
  • freebsd的软件管理工具ports详解
  • 中兴新支点操作系统安装教程
  • bios没有usb启动项解决方法联想
  • xp系统本地用户和组在哪里
  • windows10对话框是什么
  • linux查询ipv4
  • linux中的命令及含义
  • perl语言基本命令
  • nodejs连接sqlserver数据库
  • python 中
  • js能写贪吃蛇游戏是什么水平
  • 浙江国税qzzn
  • 网上怎么变更
  • 2018年税务局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设