位置: IT常识 - 正文

Vision Transformer 模型详解

编辑:rootadmin
Vision Transformer 模型详解 目录前言模型结构实验总结Question Summary前言

推荐整理分享Vision Transformer 模型详解,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

虽然说transformer已经是NLP领域的一个标准:BERT模型、GPT3或者是T5模型,但是当年

Vision transformer 提出时用transformer来做CV还是很有限的; 在视觉领域,自注意力要么是跟

卷积神经网络一起使用,要么用来把某一些卷积神经网络中的卷积替换成自注意力,但是还是保持

整体的结构不变; ViT是2020年Google团队提出的将Transformer应用在图像分类的模型,因为其

模型“简单”且效果好,可扩展性强(scalable,模型越大效果越好),成为了transformer在CV领域

应用的里程碑著作,也引爆了后续相关研究。

模型结构

作者将transformer结构去除掉decoder部分后经过改进将其运用到视觉领域。vision transformer模型结构主要包括三部分:

patch embeding 部分transformer encoder部分MLP head部分。

整个模型结构可以分为五个步骤进行:

1、将图片切分成多个patch。

2、将得到的patches经过一个线性映射层后得到多个token embedding。

3、将得到的多个token embedding concat一个额外的CLS token,然后和位置编码相加,构成完整的encoder模块的输入。

4、 将相加后的结果传入Transformer Encoder模块。

5、Transformer Encoder 模块的输出经过MLP Head 模块做分类输出。

Transformer Block:

Layer Norm层:标准归一化,为了更好的收敛。MHA层:多头自注意力机制输入和输出做残差连接Layer NormMLP层: Linear + GRLU +Linear +Dropout

L个Transformer Block 构成一个完整的Transformer Encoder模块。经过Transformer Block 后维度不变。

实验

Vision Transformer 模型详解

给出的最佳模型在ImageNet1K上能够达到88.55%的准确率(先在Google自家的JFT数据集上进行了预训练),说明Transformer在CV领域确实是有效的。 用vision transformer 模型和卷积神经网络(resnet)做了对比,实验发现在中小数据集上,

卷积神经网络的效果比vit模型的效果要好(原因在Question Summary)。随着数据及规模的增大,

ViT模型的效果要逐渐优于卷积神经网络的效果。

用vision transformer 模型和卷积神经网络(resnet)以及Hybrid结构(混合结构)做了对比,

结果相同,同时Hybrid结构在中小型数据集上也能够达到能好的性能(毕竟结合了卷积神经网络和

Transformer的优点),但随着数据集的增大,发现Transform的结构要比Hybrid结构性能优秀。 作者还做了关于自注意力机制的实验,从实验结果我们可以看出,模型可以很好的利用自注意力机制学习到图片的特征。 做了关于CLS Token和GAP以及关于不同维度的消融实验。ViT模型最后利用CLS Token做分类预

测,而卷积神经网络则是利用GAP(全局平均池化),从实验结果可以看出,CLS Token 可以和

GAP 达到同样的效果,但是要求不同的学习率。

总结

如果在足够多的数据上做预训练,也可以不需要卷积神经网路,直接使用标准的Transformer也能够

把视觉问题解决的很好;尤其是当在大规模的数据上面做预训练然后迁移到中小型数据集上面使用的

时候,Vision Transformer能够获得跟最好的卷积神经网络相媲美的结果。

Question Summary

在中小型数据集上,ViT模型不如卷积神经网络的原因:

卷积神经网络存在归纳偏置:locality 和translation equivariance。有了归纳偏置后,就有了先验知识,可以利用较少的数据去学习一个比较好的模型,而transformer没有先验知识,所以需要数据自己学习,所以在大数据集上的性能比中小数据集上。

位置编码:

如果不标注位置,在Transform看来图片就是一样的,所以需要加上位置编码。

CLS Token:

在NLP的分类任务中,被看作一个全局的对句子的理解,在这里可以看作一个图像的整体特征。

MLP Head:

一个通用的分类头,最后用交叉熵函数进行模型的训练。

论文:原论文链接 代码:pytorch代码

本文链接地址:https://www.jiuchutong.com/zhishi/294588.html 转载请保留说明!

上一篇:vue:聊天对话框的实现(vue聊天系统)

下一篇:【uni-app】小程序实现微信授权登陆(附流程图)(unigui 小程序)

  • 微信怎么查看自己支付密码(微信怎么查看自己撤回的消息)

    微信怎么查看自己支付密码(微信怎么查看自己撤回的消息)

  • 脉脉怎么删除好友(脉脉怎么删除个人信息)

    脉脉怎么删除好友(脉脉怎么删除个人信息)

  • vivox60卡槽怎么打开(vivox60手机卡槽在哪里)

    vivox60卡槽怎么打开(vivox60手机卡槽在哪里)

  • .cn是什么文件(cnv是什么文件)

    .cn是什么文件(cnv是什么文件)

  • bios进入设置卡死(进入bios后卡死无法移动)

    bios进入设置卡死(进入bios后卡死无法移动)

  • qq群文件修改后别人能看见(qq群文件修改文件名)

    qq群文件修改后别人能看见(qq群文件修改文件名)

  • 华为畅享10plus有红外线吗(华为畅享10plus有红外线遥控功能吗)

    华为畅享10plus有红外线吗(华为畅享10plus有红外线遥控功能吗)

  • 无线传声有什么用(无线传声不可用?)

    无线传声有什么用(无线传声不可用?)

  • 一张卡贴能用几张sim卡(一张卡贴只能用一张卡吗)

    一张卡贴能用几张sim卡(一张卡贴只能用一张卡吗)

  • oppo录屏在哪里开声音(OPPO录屏在哪里录)

    oppo录屏在哪里开声音(OPPO录屏在哪里录)

  • 手机加载不出来图片怎么回事(手机加载不出来图片)

    手机加载不出来图片怎么回事(手机加载不出来图片)

  • 苹果仿生处理器是什么意思(苹果仿生处理器好不好)

    苹果仿生处理器是什么意思(苹果仿生处理器好不好)

  • 华为y9在国内叫什么型号(华为y9s国内叫什么)

    华为y9在国内叫什么型号(华为y9s国内叫什么)

  • 苹果播放视频没有声音(苹果播放视频没有进度条)

    苹果播放视频没有声音(苹果播放视频没有进度条)

  • 菜鸟裹裹如何取消被别人关联(菜鸟裹裹如何取消实名认证)

    菜鸟裹裹如何取消被别人关联(菜鸟裹裹如何取消实名认证)

  • vivo手机的回收站在哪(vivo手机的回收站在哪里)

    vivo手机的回收站在哪(vivo手机的回收站在哪里)

  • 戴尔电脑分盘怎么分区(戴尔电脑分盘怎么分win11)

    戴尔电脑分盘怎么分区(戴尔电脑分盘怎么分win11)

  • ine-al00是什么型号(ine-al00参数)

    ine-al00是什么型号(ine-al00参数)

  • 面试谈jvm原理(jvm原理面试题)

    面试谈jvm原理(jvm原理面试题)

  • qq养火花有什么意义

    qq养火花有什么意义

  • 四芯网线接法是什么?(4芯网线插线顺序图)

    四芯网线接法是什么?(4芯网线插线顺序图)

  • 微软输入法打不出中文标点解决方法(微软输入法打不出汉字)

    微软输入法打不出中文标点解决方法(微软输入法打不出汉字)

  • 2023MathorcupC题电商物流网络包裹应急调运与结构优化问题建模详解+模型代码(一)(2021mathorcupc题答案)

    2023MathorcupC题电商物流网络包裹应急调运与结构优化问题建模详解+模型代码(一)(2021mathorcupc题答案)

  • HTML作业04——简易美食页面(html作业做网页)

    HTML作业04——简易美食页面(html作业做网页)

  • 如何确定合伙企业
  • 高新技术企业加计抵减
  • 报销单据粘贴单图片
  • 企业缴纳个人所得税比例
  • 冲减以前年度的成本会计分录
  • 离职补偿金怎么做账
  • 其他现代服务税目包括哪些内容
  • 行政事业性收费票据
  • 城市公交企业购置的公共汽车
  • 向境外支付特许权使用费免征增值税
  • 自产产品销售增值税
  • 专票开票出框可以改吗
  • 福建水利建设专业排名
  • 营改增房租增值税税率
  • 食堂费用计入应付职工薪酬吗
  • 增值税免税收入进项税额转出
  • 加盟费怎么算的
  • 年终奖金个人所得税计算公式
  • 买东西退税退的是什么税
  • 调拨资产入账按原值还是按净值
  • 无票收入报税后,后期又开票出去怎么处理?
  • 土地使用税计税依据及计算方式
  • 怎样接收电子承兑汇票流程视频
  • 单位给个人付款分录
  • 一般纳税人出租不动产
  • 成品油属于什么费用
  • 所得税汇算清缴时间期限
  • php readfile
  • 中拍网拍卖
  • 贝纳克波斯图干红葡萄酒
  • html-css
  • 政府会计无偿调拨资产账务处理
  • 有关厉元朗的小说
  • AIGC之GPT-4:GPT-4的简介(核心原理/意义/亮点/技术点/缺点/使用建议)、使用方法、案例应用(计算能力/代码能力/看图能力等)之详细攻略
  • php如何入门
  • 员工报销凭证怎么做
  • 差旅费住宿专票可以抵扣吗
  • 为什么营业成本比营业收入大的时候没有计提减值准备呢
  • 域名费用怎么交
  • 同时运行多个MySQL服务器的方法
  • 深入浅出embedding pdf
  • 个人接私活需要什么条件
  • 小规模纳税人交通运输服务税率
  • 公允价值变动损益在利润表哪里
  • 软件退税款会计如何处理
  • 产权转移书据印花税
  • 多计提的城建税怎么冲减
  • 进项税留底怎么处理
  • 差旅费出差补助标准
  • 资本性支出是什么活动
  • 股权支付费用是什么意思
  • 办理房产证的时候可以加孩子的名字吗
  • 进货没有发票怎么做账
  • 邮寄发票的快递费走什么科目
  • 转账支票的特点有哪些
  • 转出未交增值税会计处理
  • 收付实现制下主营业务成本怎么算
  • 企业如何科学设计产品
  • win8的运行在哪里打开
  • xp系统怎么提升性能
  • linux/unix
  • cmos密码是什么
  • win7系统共享打印机设置方法
  • centos 安装方法
  • windows7如何设置时间格式
  • windows7 运行
  • win8如何进入bios
  • win8.1system磁盘占用率高
  • shell批量处理文件
  • 怎样用div css制作网页
  • python中怎么取整数的某位数
  • python开发环境有
  • Python selenium 三种等待方式详解(必会)
  • 安卓万能插件
  • python讲解
  • 地方电子税务局是干嘛的
  • 深圳市地税局财务电话
  • 社保卡手机缴费怎么交不了
  • 无偿赠送怎么做账
  • 税务申报扣除
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设