位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

发布时间:2024-01-16
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • vue父子组件通信(vue 父子组件通信)

    vue父子组件通信(vue 父子组件通信)

  • 腾讯视频有linux版吗(腾讯视频有没有一起看的功能)

    腾讯视频有linux版吗(腾讯视频有没有一起看的功能)

  • h5制作是什么意思(h5制作软件是什么)

    h5制作是什么意思(h5制作软件是什么)

  • iphone怎么设置打电话说关机(iphone怎么设置打开app需要密码)

    iphone怎么设置打电话说关机(iphone怎么设置打开app需要密码)

  • 快手签名认证失败怎么回事(快手签名认证失败)

    快手签名认证失败怎么回事(快手签名认证失败)

  • pac模式和全局模式有什么区别(pac代理和全局代理区别)

    pac模式和全局模式有什么区别(pac代理和全局代理区别)

  • 抖音搜索结果为空是什么意思(抖音搜索结果为空)

    抖音搜索结果为空是什么意思(抖音搜索结果为空)

  • eatx12v是什么接口

    eatx12v是什么接口

  • 苹果7p没有自定控制怎么录屏(苹果7p没有自定义铃声吗)

    苹果7p没有自定控制怎么录屏(苹果7p没有自定义铃声吗)

  • 哪一款ipad可以打电话(哪一款ipad可以开90帧)

    哪一款ipad可以打电话(哪一款ipad可以开90帧)

  • 微型计算机的内存容量是指(微型计算机的内存储器是按什么编址的)

    微型计算机的内存容量是指(微型计算机的内存储器是按什么编址的)

  • vivo相册回收站在哪里(vivo相册回收站永久删除还能找回吗)

    vivo相册回收站在哪里(vivo相册回收站永久删除还能找回吗)

  • ios12如何隐藏单个app(苹果手机ios12怎么隐藏单个软件)

    ios12如何隐藏单个app(苹果手机ios12怎么隐藏单个软件)

  • 华为插耳机的地方在哪(华为插耳机在哪里)

    华为插耳机的地方在哪(华为插耳机在哪里)

  • 天猫淘宝京东的区别(天猫淘宝京东的活动)

    天猫淘宝京东的区别(天猫淘宝京东的活动)

  • 闪电盒子注销步骤(闪电盒子怎么实名认证)

    闪电盒子注销步骤(闪电盒子怎么实名认证)

  • 苹果蓝牙耳机怎么加音量(苹果蓝牙耳机怎么恢复出厂设置)

    苹果蓝牙耳机怎么加音量(苹果蓝牙耳机怎么恢复出厂设置)

  • 内存容量一般比外存容量大吗(内存容量一般比外存容量大对不对)

    内存容量一般比外存容量大吗(内存容量一般比外存容量大对不对)

  • 怎么设置仅在wifi下载(怎么设置仅在无线网络下下载)

    怎么设置仅在wifi下载(怎么设置仅在无线网络下下载)

  • 苹果xr是双卡双待吗(苹果xr是双卡双待吗只有一个卡槽)

    苹果xr是双卡双待吗(苹果xr是双卡双待吗只有一个卡槽)

  • 拍抖音视频怎么与他人合拍(拍抖音视频怎么去掉抖音的水印)

    拍抖音视频怎么与他人合拍(拍抖音视频怎么去掉抖音的水印)

  • 微信为什么看不到对方正在输入(微信为什么看不了朋友圈)

    微信为什么看不到对方正在输入(微信为什么看不了朋友圈)

  • cad导入su建模步骤(cad导入su建模教程)

    cad导入su建模步骤(cad导入su建模教程)

  • Vue3折叠面板(Collapse)(vue叠化在哪里)

    Vue3折叠面板(Collapse)(vue叠化在哪里)

  • 资金账簿印花税怎么算
  • 企业所得税如何合理避税?
  • 个人所得税应纳税所得额减半征收
  • 固定资产税前一次性扣除
  • 预付卡的发票
  • 附加税减免吗
  • 通信协会费入什么科目
  • 企业收到的捐赠应计入
  • 纳税总额是否包含增值税进项
  • 网络公司可以开展什么业务
  • 固定资产当月入账下月计提折旧
  • 专项维修资金的,由县级
  • 拆迁补偿款使用范围
  • 应计未计成本税前扣除年限
  • 代收电费可以开发票吗
  • 金税三期房产税源信息更改后
  • 商品销售税金及附加科目现在改了吗
  • 变更公司财务人员,需要本人去吗
  • 过期未抵扣的发票对企业有什么影响
  • 员工招待费会计分录
  • 农业生产用水水资源税
  • 去实体店装win10专业版多少钱
  • php数组可以使用哪些键名
  • ajax+json
  • 路由器网速慢怎么设置
  • PHP:pg_connection_status()的用法_PostgreSQL函数
  • macOS 11 Big Sur 开发者预览版 Beta 8推送
  • php做
  • 租用办公设备
  • 无形资产计价原则正确的是
  • 企业在建工程领用自产的应税消费品
  • PostMan接口测试(很全面的接口测试教程)
  • react-router6.4+的项目种路由实现方式(列举两种)
  • ps怎么选中图形放大
  • 其他应收款专项审计报告
  • 利润表季报的本期金额
  • 车辆车船税收费标准
  • 微信支付宝等改观了人们的生活方式修改病句
  • 增值税纳税申报实训报告
  • 增值税专用发票查询系统官方网站
  • 结转生产成本是不是成品入库
  • 预缴增值税需要提供什么资料
  • 平销返利如何开票是负数的
  • 印花税缴纳怎么做账
  • 三年期定期存款利率怎么算
  • 认证超过限制什么意思
  • 完工不拨付工程款怎么处理
  • 自制产品无偿赠送合法吗
  • 网上购物退货后钱多久到
  • 挂靠人员社保缴费分录如何做?
  • 企业发生亏损时,下列各项,( )是弥补亏损的渠道
  • 利润率多少算好
  • 银行记账本怎么填写
  • 问答:分支机构是否需要设立账簿
  • mysql分表命令
  • WINDOWS操作系统属于单用户任务操作系统
  • win8 itunes
  • win8无法识别的usb设备 怎么解决
  • xp系统开机一直在滚动条
  • openssl/sha.h
  • win10开机内存就占了70 解决方法
  • 如何找回windows删除的文件
  • ubuntu 系统卡住
  • drivemgr.exe 病毒介绍
  • win10修复dllregisterserver
  • Unity AssetBundle爬坑手记
  • javascriptwhile
  • python中get怎么用
  • JavaScript中的math.pi
  • 你需要知道的100位艺术大师
  • 张江税务所地址
  • 贵州省地方税务局历任纪检组长马平
  • 贵阳市税务局基本情况
  • 最新印花税税目内容
  • 乾隆年间财政收入统计表
  • 服务费交哪个税目的印花税
  • 税控盘口令密码怎么修改
  • 宁波无犯罪证明能当场拿到吗
  • ca证书怎么删除
  • 我各位一个关于网上申报增值税所得税的申报流
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号