位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 新浪微博移动端怎么设置隐身状态(新浪微博移动端下载)

    新浪微博移动端怎么设置隐身状态(新浪微博移动端下载)

  • 魅族18支持的4G网络有哪些(魅族18支持的有线耳机有哪些)

    魅族18支持的4G网络有哪些(魅族18支持的有线耳机有哪些)

  • 小度不能联网的解决办法(小度1c不能联网)

    小度不能联网的解决办法(小度1c不能联网)

  • iphone12可以双开微信吗(iphone12能双开)

    iphone12可以双开微信吗(iphone12能双开)

  • 华为p30和mate20pro区别(华为p30和mate20pro对比哪个好)

    华为p30和mate20pro区别(华为p30和mate20pro对比哪个好)

  • 华为p40pro与p40pro+区别(华为p40pro与p40pro+的区别)

    华为p40pro与p40pro+区别(华为p40pro与p40pro+的区别)

  • 计算机计算容量的基本单位是什么(计算容量是指什么)

    计算机计算容量的基本单位是什么(计算容量是指什么)

  • 怎么注销抖音号重新注册(抖音上怎么注销抖音号)

    怎么注销抖音号重新注册(抖音上怎么注销抖音号)

  • 微信加好友被限制一般要多久才恢复(微信加好友被限制别人能加我吗)

    微信加好友被限制一般要多久才恢复(微信加好友被限制别人能加我吗)

  • fastwifi怎么卸载不了(fast start怎么卸载)

    fastwifi怎么卸载不了(fast start怎么卸载)

  • 苹果系统更新好吗13.4(苹果系统更新好不好有什么影响呢)

    苹果系统更新好吗13.4(苹果系统更新好不好有什么影响呢)

  • 小米6听筒声音突然变小(小米6听筒声音很小)

    小米6听筒声音突然变小(小米6听筒声音很小)

  • mate30pro有什么颜色(mate30pro都有啥颜色)

    mate30pro有什么颜色(mate30pro都有啥颜色)

  • ipadair3支持30w快充吗(ipadair3可以用30w快充吗)

    ipadair3支持30w快充吗(ipadair3可以用30w快充吗)

  • ipad的保修期怎么算(apple ipad保修期)

    ipad的保修期怎么算(apple ipad保修期)

  • vivo手机一直重启怎么回事(vivo手机一直重启循环怎么回事开不了机)

    vivo手机一直重启怎么回事(vivo手机一直重启循环怎么回事开不了机)

  • iphone4s怎么开机(iphone4s怎么开机不了)

    iphone4s怎么开机(iphone4s怎么开机不了)

  • 华为p20耳机设置在哪(华为p20手机耳机设置)

    华为p20耳机设置在哪(华为p20手机耳机设置)

  • 就寝闹钟为什么不能删除(就寝闹钟为什么删不了)

    就寝闹钟为什么不能删除(就寝闹钟为什么删不了)

  • iphone11怎么开热点(iphone11怎么开启热点)

    iphone11怎么开热点(iphone11怎么开启热点)

  • 苹果照片删除了怎么恢复(苹果照片删除了为什么又出现了)

    苹果照片删除了怎么恢复(苹果照片删除了为什么又出现了)

  • 支付宝怎么关闭人脸支付(支付宝怎么关闭自动扣款)

    支付宝怎么关闭人脸支付(支付宝怎么关闭自动扣款)

  • 支付宝怎么解除刷脸支付(支付宝怎么解除自动扣费的功能)

    支付宝怎么解除刷脸支付(支付宝怎么解除自动扣费的功能)

  • 电脑怎么剪音乐(电脑怎么剪音乐中的一段)

    电脑怎么剪音乐(电脑怎么剪音乐中的一段)

  • 抖音批量怎么清空喜欢(怎么清空抖音批量)

    抖音批量怎么清空喜欢(怎么清空抖音批量)

  • vlog上传怎么保持清晰(vlog拍完上传到哪)

    vlog上传怎么保持清晰(vlog拍完上传到哪)

  • 台式电脑组装过程详细图解(台式电脑组装过程视频)

    台式电脑组装过程详细图解(台式电脑组装过程视频)

  • 分公司上交总公司营业款如何记账
  • 购买财务软件做什么科目
  • 个人所得税综合所得税率
  • 出租划拨土地收费合法吗
  • 分公司与总公司的法律关系
  • 增值税超过起征点填入哪个表格
  • 建筑业营改增的主要内容
  • 公司转买旧车怎么过户
  • 酒店里的水电费怎么收
  • 生产单位车间设计费应该计入什么科目?
  • 五险一金账务处理流程图
  • 费用转利润分录怎么做?
  • 已经作废了的发票怎么查
  • 2021年税控升级最新版本怎么升级
  • 公司与政府协议
  • 技术服务费收入属于提供劳务收入吗
  • 固定资产产权转移
  • 图书对方开具的证明
  • 收到有误的增值税专用发票的怎么处理
  • 购入土地建厂房要交的税
  • 王者荣耀通用铭文狩猎和隐匿
  • 系统日志在哪里打开
  • mac只能读不能写
  • 财政拨付专项资金进什么会计科目
  • 企业所得税汇算清缴表
  • 冲销以前年度多做的其他应收款
  • 增值税税率简易征收
  • mac和mac之间怎么传东西
  • php如何实现伪静态
  • 王者荣耀中钟馗怎么出装
  • php各大框架以及实现原理
  • 滴滴司机工资怎么算的
  • 公司购买车怎么做
  • 建筑单位没有资质可以承包项目吗
  • 反映企业利润的指标有
  • 超市收取进场费违反什么法律
  • 长期借款的账务处理怎么做分录
  • 蕾德纳斯
  • vue报错cannot read property
  • 快递行业规矩
  • 集团公司对子公司的内部审计
  • vgreduce --removemissing
  • php安装教程
  • 公司5个印章都刻错了
  • 应交税金科目应不应该有余额
  • 金融企业往来支出科目属于什么科目
  • 增值税药品发票明细
  • 增值税销项税的借贷方向
  • 收到银行手续费已做后期收到发票怎么做
  • 冲销暂估入库摘要怎么写
  • 固定资产内部抵扣增值税
  • 企业之间的往来款要1900万要交多少税
  • 老板怎么从公户拿钱
  • 以前年度会计科目记错
  • 餐费补贴属于工资还是福利费
  • 购买本公司产品未付款需要签名字吗
  • 注册表隐藏桌面图标
  • 播放器状态
  • freebsd软件安装
  • win8 所有程序
  • 怎么把ubuntu装在u盘上
  • linux中locate命令的作用
  • 如何通过mac找到具体地址
  • win7系统电脑无声音
  • win7英文输入法
  • win7安装内存4g
  • android:Background线程池和UiThread线程池
  • opengl画矩形函数
  • cocos2dx游戏
  • unity3D游戏开发
  • nodejs v8
  • kmp算法代码完整实现
  • jquery是基于java的吗
  • unityui
  • 曲剧全场戏双玉蝉
  • 小型微利企业所得税优惠
  • 外经证的有效期是多久
  • 怎样在网上打印社保证明
  • 骗取国家出口退税罪
  • 1国家税务总局
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设