位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 表格怎么把井号变数字(做表格单元格里面井号怎么变成数字)

    表格怎么把井号变数字(做表格单元格里面井号怎么变成数字)

  • vivo手机按键如何调出来(vivo的按键怎么调出来)

    vivo手机按键如何调出来(vivo的按键怎么调出来)

  • 腾讯会议网络异常请检查网络设置(腾讯会议网络异常5008故障)

    腾讯会议网络异常请检查网络设置(腾讯会议网络异常5008故障)

  • OPPO手机修改APP图标(oppo手机修改app名字)

    OPPO手机修改APP图标(oppo手机修改app名字)

  • 腾讯视频会员多久到v7(腾讯视频会员多久要重新登录一次)

    腾讯视频会员多久到v7(腾讯视频会员多久要重新登录一次)

  • 华为手机怎么设置密码锁(华为手机怎么设置锁屏密码)

    华为手机怎么设置密码锁(华为手机怎么设置锁屏密码)

  • 微信换实名认证还是原来微信吗(微信换实名认证账单怎么恢复)

    微信换实名认证还是原来微信吗(微信换实名认证账单怎么恢复)

  • 什么是抖音垂直度(什么是抖音垂直内容)

    什么是抖音垂直度(什么是抖音垂直内容)

  • 苹果充电线为什么容易坏(苹果充电线为什么用一段时间就不能用了)

    苹果充电线为什么容易坏(苹果充电线为什么用一段时间就不能用了)

  • 新装的固态硬盘怎么激活(新装的固态硬盘在我的电脑里不显示)

    新装的固态硬盘怎么激活(新装的固态硬盘在我的电脑里不显示)

  • 美团限制接单什么意思(被美团限制接单后多久能恢复正常)

    美团限制接单什么意思(被美团限制接单后多久能恢复正常)

  • 华为matebook14尺寸多大(华为matebook14尺寸图)

    华为matebook14尺寸多大(华为matebook14尺寸图)

  • 8002s是金立什么型号(金立8006是什么手机)

    8002s是金立什么型号(金立8006是什么手机)

  • 微信朋友圈怎么发长时间的视频(微信朋友圈怎么发文字不发图片)

    微信朋友圈怎么发长时间的视频(微信朋友圈怎么发文字不发图片)

  • hd显卡是什么(显卡hd是独立显卡吗)

    hd显卡是什么(显卡hd是独立显卡吗)

  • 华为mate30顶部两个孔是干嘛的(华为mate30手机顶部两个孔)

    华为mate30顶部两个孔是干嘛的(华为mate30手机顶部两个孔)

  • 乐视手机怎么删除自带软件(乐视手机怎么删除)

    乐视手机怎么删除自带软件(乐视手机怎么删除)

  • 解绑亲情号对方知道吗(解绑亲情号对方会收到通知吗)

    解绑亲情号对方知道吗(解绑亲情号对方会收到通知吗)

  • 艺龙黑鲸会员有啥用(黑鲸会员价格)

    艺龙黑鲸会员有啥用(黑鲸会员价格)

  • 小米8如何取消来电转接(小米8如何取消主题)

    小米8如何取消来电转接(小米8如何取消主题)

  • 荣耀10后壳玻璃怎么换(华为荣耀十后壳玻璃多少钱)

    荣耀10后壳玻璃怎么换(华为荣耀十后壳玻璃多少钱)

  • max支持5g吗(iphone11promax支持5g吗)

    max支持5g吗(iphone11promax支持5g吗)

  • ios12.3有什么新功能(ios12.3更新了什么)

    ios12.3有什么新功能(ios12.3更新了什么)

  • 网易新闻如何定位城市(网易新闻怎么设置手机型号)

    网易新闻如何定位城市(网易新闻怎么设置手机型号)

  • 如何查看Windows media player 版本?(如何查看windows密钥时间)

    如何查看Windows media player 版本?(如何查看windows密钥时间)

  • scm.exe - scm是什么进程 有什么用(scm wms)

    scm.exe - scm是什么进程 有什么用(scm wms)

  • egrep命令  在文件内查找指定的字符串(emerge命令)

    egrep命令 在文件内查找指定的字符串(emerge命令)

  • 一般纳税人发生特定应税销售行为
  • 机票抵扣进项税怎么填申报表
  • 小规模开的专票能抵扣进项税吗
  • 所有者权益股东权益
  • 未达起征点销售额,11栏怎么填写
  • 服装企业销售方式
  • 所得税费用和应交税费的关系
  • 其他综合收益不能重分类进损益的有哪些
  • 回收废品残料会计分录
  • 开红字发票如何调整收入?
  • 计提个税会计分录怎么理解
  • 一次性付清的优缺点
  • 2017年事业单位b类真题及答案
  • 购买方红字信息表开具流程图
  • 应纳税所得额是开票金额吗
  • 有哪些费用发票可以抵扣
  • 结汇汇兑损益账务处理
  • 企业借款增加实际成本
  • 差旅费进项可以跨月抵扣吗
  • 货物劳务和应税收入区别
  • 实际成本法的会计分录怎么写
  • 生产性生物资产包括哪些
  • 红字专用发票是红色的吗
  • err出错
  • 关闭win10系统更新有什么后果
  • win10电脑电源选项怎样设置最好
  • 什么样的发票可以报销
  • 生产企业放假前的安全提示
  • 房地产开发成本明细
  • php json格式化
  • php curl命令详解
  • 销售多余材料的成本
  • html5开发的app有哪些
  • smb命令执行
  • php运用
  • 公司交社保国家承担吗
  • 公对公二手车交易税
  • mongodb性能优化方案有哪些?
  • SQL Server 2008 Express如何开启远程访问
  • 资产损失税前扣除最新政策2021
  • 资产负债表中所有者权益合计怎么算
  • 计提工资是什么时候计提
  • 钢材贸易公司如何经营
  • 小微企业增值税优惠政策最新2023
  • 财务报表漏报了会影响领票吗
  • 企业所得税年报更正申报怎么操作
  • 工程进度款如何做账
  • 公司报销专用发票
  • 煤炭资源税优惠政策
  • 装修付款分期
  • 购货方收到销售方提供的发票怎么做分录
  • 销售自产农产品的农民是增值税纳税人吗
  • 所得税汇算清缴需要调增的项目
  • 增量成本属于什么成本
  • 企业所得税收入是含税还是不含税
  • 债务人以低于债务账面价值的现金清偿某项债务
  • Fedora 21顶栏日期显示不全的解决方法
  • win10系统预览版
  • macbookairfacetime
  • win7精简版安装net4.0
  • linux修改用户名
  • fdreader.exe是什么程序
  • 网卡被禁用一启动就死机
  • win8显示wifi关怎么办
  • ansi std
  • linux shell脚本编写1加100
  • python常见算法
  • js nextSibling属性和previousSibling属性概述及使用注意
  • 我的自定义计划怎么删除
  • android 自定义dialog
  • javascript教程
  • 用javascript
  • javascript面向对象精要pdf下载
  • 票种核定和税种核定的区别
  • 常州的居民医保在哪里交
  • 进项税额转出影响所得税吗
  • 重庆市网上税务局官网app下载
  • 北京市国家税务局网站官网
  • 运输装卸费属于增值税价外费用吗
  • 国税能级管理(国税局等级制度)
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设