位置: IT常识 - 正文

CLIP(Contrastive Language-Image Pre-Training)简介

编辑:rootadmin
CLIP(Contrastive Language-Image Pre-Training)简介 CLIP(Contrastive Language-Image Pre-Training):

推荐整理分享CLIP(Contrastive Language-Image Pre-Training)简介,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

利用文本的监督信号训练一个迁移能力强的视觉预训练模型

通过对比学习,训练得到图片和文本的相似度,传闻使用4亿个配对的数据和文本来进行训练,不标注直接爬取的

注意: 由于训练数据基本都是英文,对英文支持的比较好

用途:

CLIP主要是用来做图片分类(计算图片和文本的相似度(关联度)), 也可以辅助做GAN,检测,分割,检索等等

以往我们训练一个猫狗分类模型,换一个线条猫,点云猫,油画猫,穿着奇装异服的猫,分类网络很难还认识,但是现在只要加上一个 CLIP,模型马上就被扩展了.

CLIP是如何训练的:

CLIP是如何进行推理的:

可用模型介绍和说明:

`clip.available_models()`可列出CLIP可用模型列表:

'RN50','RN101','RN50x4','RN50x16','RN50x64','ViT-B/32','ViT-B/16','ViT-L/14','ViT-L/14@336px'

CLIP 是一组模型。有 9 个图像编码器: 5 个卷积编码器和 4 个 transformer 编码器。卷积编码器是 ResNet-50、ResNet-101 和类似 EfficientNet 的模型,称为 RN50x4、RN50x16、RN50x64(数字越大,模型越好)。transformer 编码器是视觉 Transformer(或称之为 ViT(Visual Transformer)):ViT-B/32、ViT-B/16、ViT-L/14 和 ViT-L/14@336。最后一个在分辨率为 336×336 像素的图像上进行微调,其他的则在 224×224 像素上进行训练。

ViT-B/16中:

        + ViT: Visual Transformer

        + B: Base(Base(基础)/ Large(大的)/ Huge(极大的))

        + 16: Patch Size(块大小), 16×16

三个模型(Base(基础)/ Large(大的)/ Huge(极大的))的参数,在源码中除了有Patch Size为16*16的外还有32*32的。

Model

Patch Size

Layers

Hidden Size D

MLP Size

Heads

Params

ViT-Base

16×16

12

CLIP(Contrastive Language-Image Pre-Training)简介

768

3072

12

86M

ViT-Large

16×16

24

1024

4096

16

307M

ViT-Huge

14×14

32

1280

5120

16

632M

Layers 就是Transformer Encoder中重复堆叠Encoder Block的次数L

Hidden Size 就是对应通过Embedding层(Patch Embedding + Class Embedding + Position Embedding)后每个token的dim(向量的长度)不用那么复杂,其实就是Patch Embedding后向量的长度

MLP Size 是Transformer Encoder中MLP Block第一个全连接的节点个数(是token长度的4倍) MLP中第一个全连接层升维数

Heads 代表Transformer中Multi-Head Attention的heads数。

Params 参数量

Patch Size 为32 x 32,即一张图片可以被划分为224/32 x 224/32 = 7x 7 个patch,每个patch的shape为: [32, 32,3] ,共7x7= 49个,我们可以对每个patch进行线性映射得到所需要的token [32 x 32 x 3] = [3072] ,即

 即一张图片被切分为49个patch,对每个patch进行变换后得到shape为[3072]的token,即tokens的shape为 [49, 3072] 。

基准测试:

具体使用方法和代码:

github仓库: GitHub - openai/CLIP: Contrastive Language-Image Pretraining

本文链接地址:https://www.jiuchutong.com/zhishi/297315.html 转载请保留说明!

上一篇:实验七 视图(视图的定义和操作实验报告)

下一篇:uniapp 高频面试题合集(uniapp面试题必问的坑)

  • 金融企业哪些方面可以进行数据分析
  • 餐饮业申请发票
  • 未使用固定资产计提折旧计入
  • 连锁店每个店都要独立核算吗
  • 公司茶水间有什么
  • 租房违约金怎么计算,怎么写
  • 亏损 纳税
  • 房地产企业土地使用税
  • 汇总记账凭证核算组织程序的缺点主要有
  • 托收承付和委托收款的含义和相同之处
  • 现金货款退回如何做会计分录呢?
  • 办理会员卡套路消费
  • 劳动仲裁经济补偿金的事实和理由
  • 收取境外服务费收入会计分录
  • 本月预估是什么意思
  • 增值税税负低如何解释
  • 暂估收入销项税与后期开票不一致
  • 上海地方教育费附加减半征收2018
  • 转籍车辆是什么意思
  • 加盟费需要缴纳多少税
  • 增值税小规模纳税人减免增值税政策
  • windows10如何设置密码
  • 多缴的企业所得税如何处理
  • 苹果系统中怎么删除软件
  • 增值税进项发票不够抵扣怎么办
  • 处置控制的子公司有哪些
  • 日记账和总账一般采用
  • excel js宏
  • 产品出库单什么时候入账
  • 购买性支出和转移性支出的本质区别
  • 康沃尔公国范围
  • 劳务报酬个税计算器2021计算器
  • thinkphp表单验证
  • thinkphp模型作用
  • 文件不知道在哪怎么找
  • 银行代发工资会扣个人所得税吗
  • 开发成本结转开发产品的分录
  • 商业折扣应该怎么计算
  • 辅助账簿属于会计档案吗
  • 欠款收不回来了会计分录
  • 所得税预缴怎么申报
  • 物业管理费发票备注栏要求
  • 财务费用报销流程图word
  • 增值税期末留抵退税原因采集确认单
  • 租赁房屋怎么做账
  • 股东分红要不要纳税?
  • 软件开发过程付什么费用
  • 销售退回的会计分录全过程
  • 无形资产根据什么科目填列
  • 建筑施工企业工程施工明细科目
  • 酒店租金计入什么会计科目
  • 软件开发公司一般薪水多少
  • 收到客户不要的定金怎么做账?
  • 分支机构属于小型微利企业吗?
  • 发票 发票专用章
  • 银行日记账年底是0第二年年初怎么写
  • 可持续增长率和内部增长率的区别
  • 会计净资产计算公式
  • win2003设置网络共享
  • mac截屏后的图片在哪里
  • wan 微型端口
  • win8如何打开设置
  • hpzts04.exe是什么进程 有什么作用 hpzts04进程查询
  • win8.1技巧
  • netddeclnt.exe - netddeclnt是什么进程 有什么用
  • window10 蓝牙鼠标
  • linux实用技巧
  • linux版vnc
  • opengl教程48讲
  • js中正则表达式语法
  • jQuery插件下载
  • jquery的实现原理
  • python gui视频教程
  • percona mongodb
  • cocos2dx怎么用
  • Vuforia 4.0 beta——Object Recognition (三)
  • shell编程入门
  • unity一运行就停止工作
  • 税务风险科是干什么的
  • 举报电话12345管用吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设