位置: IT常识 - 正文

Vision Transformer 模型详解

编辑:rootadmin
Vision Transformer 模型详解 目录前言模型结构实验总结Question Summary前言

推荐整理分享Vision Transformer 模型详解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

虽然说transformer已经是NLP领域的一个标准:BERT模型、GPT3或者是T5模型,但是当年

Vision transformer 提出时用transformer来做CV还是很有限的; 在视觉领域,自注意力要么是跟

卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持

整体的结构不变; ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,因为其

模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域

应用的里程碑著作,也引爆了后续相关研究。

模型结构

作者将transformer结构去除掉decoder部分后经过改进将其运用到视觉领域。vision transformer模型结构主要包括三部分:

patch embeding 部分transformer encoder部分MLP head部分。

整个模型结构可以分为五个步骤进行:

1、将图片切分成多个patch。

2、将得到的patches经过一个线性映射层后得到多个token embedding。

3、将得到的多个token embedding concat一个额外的CLS token,然后和位置编码相加,构成完整的encoder模块的输入。

4、 将相加后的结果传入Transformer Encoder模块。

5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。

Transformer Block:

Layer Norm层:标准归一化,为了更好的收敛。MHA层:多头自注意力机制输入和输出做残差连接Layer NormMLP层: Linear + GRLU +Linear +Dropout

L个Transformer Block 构成一个完整的Transformer Encoder模块。经过Transformer Block 后维度不变。

实验

Vision Transformer 模型详解

给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的。 用vision transformer 模型和卷积神经网络(resnet)做了对比,实验发现在中小数据集上,

卷积神经网络的效果比vit模型的效果要好(原因在Question Summary)。随着数据及规模的增大,

ViT模型的效果要逐渐优于卷积神经网络的效果。

用vision transformer 模型和卷积神经网络(resnet)以及Hybrid结构(混合结构)做了对比,

结果相同,同时Hybrid结构在中小型数据集上也能够达到能好的性能(毕竟结合了卷积神经网络和

Transformer的优点),但随着数据集的增大,发现Transform的结构要比Hybrid结构性能优秀。 作者还做了关于自注意力机制的实验,从实验结果我们可以看出,模型可以很好的利用自注意力机制学习到图片的特征。 做了关于CLS Token和GAP以及关于不同维度的消融实验。ViT模型最后利用CLS Token做分类预

测,而卷积神经网络则是利用GAP(全局平均池化),从实验结果可以看出,CLS Token 可以和

GAP 达到同样的效果,但是要求不同的学习率。

总结

如果在足够多的数据上做预训练,也可以不需要卷积神经网路,直接使用标准的Transformer也能够

把视觉问题解决的很好;尤其是当在大规模的数据上面做预训练然后迁移到中小型数据集上面使用的

时候,Vision Transformer能够获得跟最好的卷积神经网络相媲美的结果。

Question Summary

在中小型数据集上,ViT模型不如卷积神经网络的原因:

卷积神经网络存在归纳偏置:locality 和translation equivariance。有了归纳偏置后,就有了先验知识,可以利用较少的数据去学习一个比较好的模型,而transformer没有先验知识,所以需要数据自己学习,所以在大数据集上的性能比中小数据集上。

位置编码:

如果不标注位置,在Transform看来图片就是一样的,所以需要加上位置编码。

CLS Token:

在NLP的分类任务中,被看作一个全局的对句子的理解,在这里可以看作一个图像的整体特征。

MLP Head:

一个通用的分类头,最后用交叉熵函数进行模型的训练。

论文:原论文链接 代码:pytorch代码

本文链接地址:https://www.jiuchutong.com/zhishi/294588.html 转载请保留说明!

上一篇:vue:聊天对话框的实现(vue聊天系统)

下一篇:【uni-app】小程序实现微信授权登陆(附流程图)(unigui 小程序)

  • 微信连麦睡觉自动挂断

    微信连麦睡觉自动挂断

  • p站如何搜索视频(怎么在p站搜视频)

    p站如何搜索视频(怎么在p站搜视频)

  • 微博青少年模式关不了怎么办(微博青少年模式是开了个新账号吗)

    微博青少年模式关不了怎么办(微博青少年模式是开了个新账号吗)

  • 芯片封测是什么(芯片封测是高科技吗)

    芯片封测是什么(芯片封测是高科技吗)

  • 怎么下载谷歌商店(google谷歌下载)

    怎么下载谷歌商店(google谷歌下载)

  • 抖音怎么上传超过一分钟的视频(抖音怎么上传超过60秒的视频)

    抖音怎么上传超过一分钟的视频(抖音怎么上传超过60秒的视频)

  • freebuds3有线充版和无线充版区别(华为freebuds3有线充版和无线充版区别)

    freebuds3有线充版和无线充版区别(华为freebuds3有线充版和无线充版区别)

  • 电源已接通未充电什么意思(电源已接通未充电 真正解决办法)

    电源已接通未充电什么意思(电源已接通未充电 真正解决办法)

  • 抖音怎么把很多照片做成视频(抖音怎么把很多个视频截取到一个上面)

    抖音怎么把很多照片做成视频(抖音怎么把很多个视频截取到一个上面)

  • 绑定号码呼叫啥意思(绑定号码呼叫一般是什么号码)

    绑定号码呼叫啥意思(绑定号码呼叫一般是什么号码)

  • 华为nova3后盖开胶了怎么办(华为nova3后盖开胶翘起怎么办)

    华为nova3后盖开胶了怎么办(华为nova3后盖开胶翘起怎么办)

  • 情侣空间能不能删访客(情侣空间能不能看见以前的情侣)

    情侣空间能不能删访客(情侣空间能不能看见以前的情侣)

  • 红米note8pro自带贴膜吗(红米note8pro自带充电器参数)

    红米note8pro自带贴膜吗(红米note8pro自带充电器参数)

  • 微信共享位置能听到说话吗(微信共享位置能不能改变自己的位置)

    微信共享位置能听到说话吗(微信共享位置能不能改变自己的位置)

  • iphone7掉水里能用吗(iphone7掉进水里)

    iphone7掉水里能用吗(iphone7掉进水里)

  • word怎么输下标(word文档怎么输入带下标的字母)

    word怎么输下标(word文档怎么输入带下标的字母)

  • mate30支持AI隔空手势截屏吗(华为mate30支不支持隔空操作)

    mate30支持AI隔空手势截屏吗(华为mate30支不支持隔空操作)

  • 苹果11pro镜头需要贴膜吗(苹果11pro镜头功能)

    苹果11pro镜头需要贴膜吗(苹果11pro镜头功能)

  • 苹果nt开头的是什么机(苹果手机型号nt开头)

    苹果nt开头的是什么机(苹果手机型号nt开头)

  • 安装包安不上怎么办(安装包下载安装不了)

    安装包安不上怎么办(安装包下载安装不了)

  • 微信发出去消息怎么撤回(微信发出去消息超过两分钟怎么撤回)

    微信发出去消息怎么撤回(微信发出去消息超过两分钟怎么撤回)

  • p30充电时间(p30 充电速度)

    p30充电时间(p30 充电速度)

  • 苹果6打不开机怎么办(苹果6打不开机了 按键长按没有反应)

    苹果6打不开机怎么办(苹果6打不开机了 按键长按没有反应)

  • 织梦dedecms首页列表页获取文章带链接tag标签(织梦官方网站)

    织梦dedecms首页列表页获取文章带链接tag标签(织梦官方网站)

  • 上月做其它应付款本月发票到如何做
  • 个体户核定5万每个月要交多少税钱
  • 公司出售固定资产
  • 房屋中介机构可以资金托管吗
  • 如何调整所得税费用
  • 一般纳税人企业所得税多久申报一次
  • 增值税发票选择确认平台勾选注意事项
  • 软件委托开发合同印花税
  • 分支机构是否需要进行企业所得税汇算清缴申报
  • 业务招待费怎么做会计分录
  • 计提税费怎么写分录
  • 当月发票开错了已经红冲怎么做分录?
  • 内部损益表
  • 零余额帐户如何转账
  • 企业收到免税发票后怎么开票
  • 未认缴出资的股东退股
  • 企业利息收入要交所得税吗
  • 海关进口增值税专用缴款书是发票吗
  • 企业出租自有厂房超经营吗
  • 小微企业季度超过30万怎么报增值税
  • 进项税和销项税税率一样吗
  • 成本费用跨年度怎么计算
  • 集团公司奖励发放遵循什么原则
  • 公园门票可以开发票吗
  • 资源税进什么科目
  • 公司支付给个人的货款怎么入账
  • 定期定额怎么报税
  • 固定资产报废未折旧完会计处理
  • 期权的行权收益
  • 跨省银行承兑汇票可以接受吗
  • 收取专利使用费怎么支出
  • 手撕票怎么做会计分录
  • windows11怎么设置默认应用
  • win10字体有些模糊
  • mac鼠标移动到角落立刻显示桌面
  • 会计差错更正处理
  • 企业所得税纳税调整事项有哪些
  • 实际投资收益率等于什么
  • 加速折旧法计算公式 CFA
  • protect.exe进程
  • 会计凭证设计要注意的问题
  • 增值税的计税依据包括契税吗
  • 波来古市在哪里
  • 框架导入
  • 【AIGC】6、Segment Anything | Meta 推出超强悍可分割一切的模型 SAM
  • 文本生成图像前景怎么样
  • php实现链式操作实验报告
  • 苹果2021年在中国不能用了吗
  • 滴滴打车的发票是什么样子
  • 公司少申报个税
  • 帝国cms8.0
  • sql server 链接
  • 企业清算未分配利润怎么交税
  • 勘察设计费取费
  • 无法收回的款项怎么记账
  • 小规模开具的1%专票 一般纳税人抵扣
  • 研发费用加计扣除的条件
  • 借款利息计入哪个科目
  • mysql 隐式游标
  • mysql主从复制原理详解
  • MySQL数据迁移到oracle
  • windows录音机录音文件格式
  • win7更改电脑设置在哪里
  • window照片无法预览
  • centos7ssh登录
  • linux root用户登陆
  • 查找临时文件的命令
  • linux指令系统
  • 如何删除win7系统自带游戏软件
  • 逆向教程推荐知乎
  • unity用visual
  • bat 截取字符串
  • easyui getselections
  • js 键盘码
  • node的理解
  • js层级选择器
  • 手机截取电脑屏幕
  • 2020年砂石
  • 12366国税网上申报
  • 煤炭限产是利好还是利空
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设