位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 公司债券和企业债券哪个风险大
  • 递延所得税资产和负债怎么理解
  • 新办企业购置设备怎么抵税
  • 小微企业所得税优惠政策最新2022
  • 进出口贸易公司需要什么资质
  • 城建税计税依据扣除增值税期末留抵
  • 运输公司的车辆保险费计入什么科目
  • 自己开车差旅费报销流程怎么写
  • 资产减值损失跟信用减值损失能合并
  • 微商怎么收税
  • 自然人合伙企业怎么交税
  • 纸质发票如何查看电子发票
  • 当买方违约时,卖方可以得到哪些补救?
  • 资产损失税前扣除及纳税调整明细
  • 其他综合收益在利润表的哪个位置哪里
  • 产品售后维修产品介绍
  • 高新企业职工教育经费扣除比例
  • 营改增后商场进场费如何缴税?
  • 生产过程中报废怎么核算成本
  • 电商平台收取会员费吗
  • 事业单位代扣社保分录
  • 已抵扣专用发票冲红怎么操作
  • 健身行业的税务政策
  • 异地仓储概述
  • 收到个税手续费返还现金流量表
  • 增值税普通发票需要交税吗
  • 投资收益企业所得税预缴
  • 外聘人才一次性工资费用入账什么分录?
  • 租赁费摊销计入什么科目
  • iphone6s怎么开启开发者选项
  • 鸿蒙工具箱巅峰模式有什么用
  • 企业与企业之间借款账务如何处理
  • ThinkPHP中SHOW_RUN_TIME不能正常显示运行时间的解决方法 原创
  • PHPfor循环语句10的阶乘
  • kwservice.exe是什么
  • myfastupdate.exe - myfastupdate是什么进程文件 有什么用
  • pyecharts绘制柱状图动态图
  • 房地产开发企业涉及哪些税
  • 运费抵扣的基本原则
  • 新一代状态管理工具 -- Pinia 上手指南
  • 黏菌算法总结
  • 应交税款怎么计算
  • 资产计税基础填资产原值吗
  • 小规模纳税人要缴纳哪些税
  • MongoDB db.serverStatus()输出内容中文注释
  • 简述sql server
  • 国税局领发票是哪些项目需要收取费用
  • 收到银行承兑汇票计入什么科目
  • 债权投资持有期间的账务处理
  • 成品油发票如何作废
  • 销货清单自己留哪一联
  • 车间不生产折旧计提放哪里
  • 服务业收入的会计分录
  • 小企业成本核算方法怎么填
  • 研发支出费用化支出结转到哪个科目
  • 改制后企业是否可以剥离资产管理
  • 计算机二级考试报名入口官网
  • mysql学习资料
  • win2008r2密码忘了
  • 微软正式推送windows11
  • 苹果mac浏览器
  • macbookpro日历
  • centos的命令
  • win8错误代码0xc0000001开不了机
  • win10预览版和正式版
  • win10联想笔记本还原系统
  • mac新版系统
  • RPDFLchr.exe - RPDFLchr是什么进程 有什么用
  • win10重启更新的时候强制关机后会发生啥
  • win7显示ipv6无网络访问权限
  • css优化提高性能的方法有哪些
  • vue 父子组件通信
  • Node.js中的什么模块是用于处理文件和目录的
  • xcopy复制并改名
  • shell脚本识别十六进制数
  • 使用筷子就餐会不会传染乙肝病毒
  • 广州市税务局机构设置
  • 中国税务主旨是什么?
  • 税务登记证的电子版在哪
  • 江苏省纳税信息查询
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设