位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 苹果手机会卡吗(苹果手机卡屏了怎么办)

    苹果手机会卡吗(苹果手机卡屏了怎么办)

  • 等待验证是什么意思(等待验证变成添加怎么回事)

    等待验证是什么意思(等待验证变成添加怎么回事)

  • ipad a1599是什么机型(ipad a1599是ipad几)

    ipad a1599是什么机型(ipad a1599是ipad几)

  • oppoa9后壳是玻璃的吗(oppoa9手机后盖是不是玻璃的)

    oppoa9后壳是玻璃的吗(oppoa9手机后盖是不是玻璃的)

  • ps打不了字是怎么回事(ps打不出字来什么原因)

    ps打不了字是怎么回事(ps打不出字来什么原因)

  • 京东自营和跨自营区别(京东自营和跨自营有什么区别)

    京东自营和跨自营区别(京东自营和跨自营有什么区别)

  • 口述影像是什么功能(口述影像历史)

    口述影像是什么功能(口述影像历史)

  • 苹果11可以用快充会有影响吗(苹果11可以用快冲吗)

    苹果11可以用快充会有影响吗(苹果11可以用快冲吗)

  • cpu里都是二极管吗(cpu里都是二极管怎么办)

    cpu里都是二极管吗(cpu里都是二极管怎么办)

  • excel表格怎么排序(excel表格怎么排序123)

    excel表格怎么排序(excel表格怎么排序123)

  • 电脑系统参数设置在哪(电脑系统参数设置怎么看)

    电脑系统参数设置在哪(电脑系统参数设置怎么看)

  • 淘宝皮肤怎么设置(淘宝皮肤怎么设置白色)

    淘宝皮肤怎么设置(淘宝皮肤怎么设置白色)

  • 苹果耳机a1602的用法(苹果耳机a1602的尺寸)

    苹果耳机a1602的用法(苹果耳机a1602的尺寸)

  • 苹果打电话听筒声音小解决方法(苹果打电话听筒没声音微信听语音又可以了)

    苹果打电话听筒声音小解决方法(苹果打电话听筒没声音微信听语音又可以了)

  • 手环对身体有危害吗(手环对身体有危险吗)

    手环对身体有危害吗(手环对身体有危险吗)

  • oppo桌面设置主页在哪(oppo手机设置)

    oppo桌面设置主页在哪(oppo手机设置)

  • 抖音原手机号已停用(抖音用以前的手机号注册的号码丢了怎么找回)

    抖音原手机号已停用(抖音用以前的手机号注册的号码丢了怎么找回)

  • 抖音艾特对方能收到吗(抖音艾特对方能看到的有效期限)

    抖音艾特对方能收到吗(抖音艾特对方能看到的有效期限)

  • 快手直播能举报吗(快手直播举报对方会不会看到是我举报的)

    快手直播能举报吗(快手直播举报对方会不会看到是我举报的)

  • 小米8se怎么隐藏刘海屏(小米8se怎么隐藏应用)

    小米8se怎么隐藏刘海屏(小米8se怎么隐藏应用)

  • Win11如何设置安装来源?Win11设置安装来源方法(win11如何设置安装位置)

    Win11如何设置安装来源?Win11设置安装来源方法(win11如何设置安装位置)

  • 正爬上唐娜·诺克沙滩的灰海豹,英格兰北林肯郡 (© Frederic Desmette/Minden Pictures)

    正爬上唐娜·诺克沙滩的灰海豹,英格兰北林肯郡 (© Frederic Desmette/Minden Pictures)

  • Java学习-第一部分-第二阶段-第七节:泛型(java第一步)

    Java学习-第一部分-第二阶段-第七节:泛型(java第一步)

  • 分公司和总公司不在一个区
  • 残疾人个人所得税
  • 基础设施道路建设
  • 业务招待费可以进成本吗
  • 社保免征还需要申报吗
  • 投资收益科目在贷方
  • 建筑简易征收需要成本发票吗
  • 支付安全生产费怎么入账
  • 国家税务定额发票票样
  • 合伙人没有账目就说赔了合法吗
  • 建筑企业购进免税苗木1000元
  • 委托加工和进口加工区别
  • 必须开具增值税专用发票
  • 住宿费专用发票税率是多少
  • 外贸企业仍一箱难求
  • 做企业所得税汇算清缴前需要准备什么资料
  • 核定征收小微企业
  • 员工基本养老保险缴纳比例
  • 培训学校税收筹划
  • 费用与支出的区别是什么
  • 预收账款的科目属性
  • 2019年基金市场
  • 税务更正申报需要哪些资料
  • 小微企业 2021
  • 亏损企业能否享受失业金
  • 公积金发放怎么自动转入银行卡
  • 社保退回的钱怎么做会计分录
  • bios术语
  • avcodec是什么意思
  • php
  • 贷款损失准备科目为负债类科目
  • phpmemcached使用
  • 高新技术企业补助需要交所得税吗
  • 总包缴税
  • 购入无形资产的增值税税率
  • 增值税及附加税是什么意思
  • phpseclib
  • thinkphp框架介绍
  • smarty怎么用
  • 我一定要用自己的双手拼出来
  • 编程前十名
  • php解释器工作流程
  • php+web
  • 免征增值税怎么入账
  • 小企业会计准则没有以前年度损益调整科目
  • 帝国cms使用手册
  • 帝国cms配置数据库
  • 文化事业建设费税收优惠2023
  • 企业购进生产设备的会计分录
  • 土地开发成本包刮
  • 不征税发票需要申请吗
  • mysql升级-5.1升级到5.7
  • 基本户开立账户清单
  • 兼职会计人员的职责
  • 增量留底退税额计算
  • 职工福利费支出不超过工资薪金总额的
  • 原材料 半成品
  • 非居民企业所得税征收方式鉴定表
  • 原材料入库损耗
  • 外购材料的核算方法有
  • 实报实销有补贴嘛
  • 异地预缴增值税多交了怎么办,可以退吗
  • 企业对于发出的货物
  • 内核版本能升级吗
  • windows7 usb
  • 微信小程序实现烟花
  • 分享五个有用的东西
  • windows批量添加文件后缀
  • unity learn premium
  • 我写的书日语
  • jQuery插件能输出到控制台
  • python在设计领域的应用
  • js中checked什么意思啊
  • adb工具使用说明文档下载
  • jQuery ajaxSubmit 实现ajax提交表单局部刷新
  • python查找列表中的元素
  • 发票换领
  • 职称评定专业一览表
  • 开票风险预警机制黄色预警严重吗?
  • 南通地税电话号码
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设