位置: IT常识 - 正文

CLIP模型(CLIP模型原理)

编辑:rootadmin
CLIP模型 什么是CLIP

推荐整理分享CLIP模型(CLIP模型原理),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:CLIP模型,CLIP模型原理,CLIP模型是干嘛的,clip模型大小,clip模型大小,clip模型全称,clip模型大小,clip模型什么时候出来的,内容如对您有帮助,希望把文章链接给更多的朋友!

Contrastive Language-Image Pre-Training—CLIP 利用文本的监督信号训练一个迁移能力强的视觉模型

这个模型有什么用呢?想象我们有一个图像分类的任务训练1000个类别,预测一张图片是这1000个类别中的哪一类现在如果加入50个新的类别的图像,试想会发生什么呢?传统的图像分类模型无法对类别进行拓展,想要保证准确率只能从头开始训练,费时费力。CLIP模型就可以用来解决这种问题,预训练后的模型就可以直接进行zero-shot

与前人工作对比:

CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法在ImageNet上的效果只要17%。然后openAI说:不是方法不行,而是资源不到位(暴力出奇迹)一个648解决不了,那就再来十次648.。。。

CLIP的成果:

CLIP在完全不使用ImageNet中所有训练数据的前提下直接Zero-shot得到的结果与ResNet在128W ImageNet数据训练效果一致CLIP使用4亿个配对的数据和文本来进行训练,不标注直接爬取(没有解决transformer训练所需数据量大的缺点)监督训练和zero-shot

在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。 无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。 简而言之:

有监督训练:利用已经打好标签的数据训练模型。无监督训练:训练所用的数据没有任何标签。CLIP模型(CLIP模型原理)

什么是zero-shot(零样本学习):

定义 zero-shot顾名思义即是对某些类别完全不提供训练样本,也就是说没有标注样本的迁移任务被称为zero-shot。不需要任何训练样本就可以直接进行预测模仿人脑的学习能力和知识的迁移能力,根据以往的经验对未知的事物做出预测。

简单的zero-shot的实例:

首先,我们可以将其视为一个类似于自然语言处理的任务,它使用词嵌入(将词汇表中的词或短语映射到实数向量,要求具有相似含义的词将具有相似的词嵌入)。那么对于上面的例子,零样本学习是下面这样来处理的,

训练数据中并没有斑马的图像,但是有带条纹的动物(如老虎),有跟马长得相似的一类动物(如马、驴),还有黑白色的动物(如熊猫)的各种图像。可以提取这些图像的特征(条纹、形状似马、黑/白色)并生成词嵌入,组成字典。然后,我们描述斑马的外观,并使用前面训练集里提出的特征来将斑马的外观转化成相应的词嵌入。最后,当你给模型输入一张斑马的图像,它会先提取图像的特征,转化成词嵌入,然后与字典中最接近的词嵌入进行比较,得出那图像可能是只斑马。

CLIP模型的基本架构

模型训练:

输入图片->图像编码器(vision transformer)->图片特征向量输入文字->文本编码器(text )->文本特征向量对两个特征进行线性投射,得到相同维度的特征,并进行L2归一化计算两个特征向量的相似度(夹角余弦)对n个类别进行softmax,确定个正样本和个负样本,并最大化正样本的权重。# 分别提取图像特征和文本特征I_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# 对两个特征进行线性投射,得到相同维度的特征,并进行l2归一化I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# 计算缩放的余弦相似度:[n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# 对称的对比学习损失:等价于N个类别的cross_entropy_losslabels = np.arange(n) # 对角线元素的labelsloss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2

模型预测:

给出一些文本提升(给出选项)选项中要包含正确答案然后计算每一个文本提升和图片特征的相似度。找到相似度最高的即为正确答案

合理的提示:

预测时的提示非常重要首先是需要一句话或者几个词来提示最好要加上预测的场景,要具有情景的相关性提示要全面,这样预测准确率也会提高。

CLIP模型的展示

本文链接地址:https://www.jiuchutong.com/zhishi/290715.html 转载请保留说明!

上一篇:跨年庆典中燃放的烟花,西班牙萨拉戈萨 (© Martina Badini/Shutterstock)(跨年庆典中燃放的歌曲)

下一篇:落基山国家公园的朗斯峰,科罗拉多州 (© Andrew R. Slaton/Tandem Stills + Motion)(落基山国家公园攻略)

  • oppok9s是什么屏幕(oppok9s是什么屏幕哪里生产的)

    oppok9s是什么屏幕(oppok9s是什么屏幕哪里生产的)

  • 高德顺风车在哪里打开(高德顺风车在哪下单)

    高德顺风车在哪里打开(高德顺风车在哪下单)

  • Word2019首行缩进2字符如何设置(word2019首行缩进怎么设置)

    Word2019首行缩进2字符如何设置(word2019首行缩进怎么设置)

  • 如何在word里插入脚注(如何在word里插一页)

    如何在word里插入脚注(如何在word里插一页)

  • 华为nova4联系人怎么设置头像(华为 联系人)

    华为nova4联系人怎么设置头像(华为 联系人)

  • 手环可以接打电话吗(手环接打电话推荐)

    手环可以接打电话吗(手环接打电话推荐)

  • 阿里拍卖拍下来不想要了怎么办(阿里拍卖拍了可以退款吗)

    阿里拍卖拍下来不想要了怎么办(阿里拍卖拍了可以退款吗)

  • 手机直播电流声大怎么解决(手机直播电流声怎么消除)

    手机直播电流声大怎么解决(手机直播电流声怎么消除)

  • 哈啰出行怎么关锁啊(哈啰出行怎么关闭自动更新)

    哈啰出行怎么关锁啊(哈啰出行怎么关闭自动更新)

  • 华为手表3pro电池一般用几天(华为手表3pro电话簿在哪里)

    华为手表3pro电池一般用几天(华为手表3pro电话簿在哪里)

  • 为什么vagaa搜不到东西了(为什么搜不出来呀)

    为什么vagaa搜不到东西了(为什么搜不出来呀)

  • 华为p30防水到什么程度(华为p30防水级别高吗)

    华为p30防水到什么程度(华为p30防水级别高吗)

  • 苹果7按键震动有嘎嘣声(苹果7按键震动在哪调)

    苹果7按键震动有嘎嘣声(苹果7按键震动在哪调)

  • 华为畅玩6怎么打开卡槽(华为畅玩6怎么下QQ)

    华为畅玩6怎么打开卡槽(华为畅玩6怎么下QQ)

  • wifi连接拒绝接入什么意思(wifi连接拒绝接入怎么办)

    wifi连接拒绝接入什么意思(wifi连接拒绝接入怎么办)

  • 小米8支持5A快充吗(小米8支持5a快充吗?充电参数)

    小米8支持5A快充吗(小米8支持5a快充吗?充电参数)

  • 手机淘宝怎么申请开店(手机淘宝怎么申请换货)

    手机淘宝怎么申请开店(手机淘宝怎么申请换货)

  • 抖音用户推荐关注什么意思(抖音用户推荐关注怎么关)

    抖音用户推荐关注什么意思(抖音用户推荐关注怎么关)

  • vrv空调和中央空调的区别(vrv空调和中央空调的成本)

    vrv空调和中央空调的区别(vrv空调和中央空调的成本)

  • 用户体验改进计划可以关闭吗(用户体验改进计划在哪里关闭)

    用户体验改进计划可以关闭吗(用户体验改进计划在哪里关闭)

  • 电信4g信号变3g怎么办(电信突然4g变3g)

    电信4g信号变3g怎么办(电信突然4g变3g)

  • iponexr和iponex区别(iponex和iphonexr选哪个)

    iponexr和iponex区别(iponex和iphonexr选哪个)

  • 美图秀秀贴纸怎么用(美图秀秀贴纸怎么保存)

    美图秀秀贴纸怎么用(美图秀秀贴纸怎么保存)

  • 昵图网如何按编号查找(如何用昵图网的图片在ps制作)

    昵图网如何按编号查找(如何用昵图网的图片在ps制作)

  • 应交税费和应交增值税
  • 建筑业小规模纳税人预缴增值税
  • 建筑业无票支出
  • 个人捐款合法吗
  • 增值税发票税控开票软件打不开
  • 购买车辆的保险怎么入账
  • 作废冲红的发票怎么做账处理
  • 政府基金如何开票
  • 一般劳务报酬和税收区别
  • 进项税额计入其他应付款是什么意思
  • 城市维护建设税减免税优惠政策
  • 固定报销额度算工资吗
  • 员工工伤保险报销走什么科目
  • 对方承担税点的发票额怎么计算
  • 计提成本会计分录怎么做
  • 投资款的印花税的纳税义务时间
  • 营改增的会计分录
  • 怎么查询发票是否已认证
  • 每期折旧怎么算
  • 未开票收入如何确认
  • 预付款退回扣除什么意思
  • 计提减值准备怎么计算?
  • 收到注册资本需要开发票么
  • 其他应收款社保个人部分分录
  • 房地产行业需要做环评吗
  • 关闭客户端快捷键
  • 资本公积和盈余公积都是从企业的净利润中提取的
  • 进程aissca.exe
  • 图文详解:台盆柜安装的全过程
  • 从上布法罗荒野地区的惠特克顶小道向东看,阿肯色州奥沙克国家森林 (© Jens Lambert Photography/Getty Images Plus)
  • 小米mini路由器mesh
  • 中拍网拍卖
  • 增值税发票没认证 可以重新开吗
  • 辅料分配方法
  • react组件如何设置dom
  • 发行债券的会计分录摊销
  • 页面白屏可能原因前端
  • 如何免费使用超级简历
  • webstorm功能
  • echarts y轴设置
  • php 输出
  • php如何使用
  • 机器人折旧年限
  • php手机验证码验证
  • 一般纳税人应交税费二级科目有哪些
  • 个税申报信息怎么填
  • 生产车间计提费用会计分录
  • 货款发票如何入账
  • 固定资产变动方式名称
  • 实物返利的税务处理
  • 坏账确认无法收回
  • 财务收入支出明细表
  • 会计物料超损费怎么算
  • 银行收到一笔款项企业尚未入账属于什么情况的未达账项
  • 冲回以前年度暂估入库
  • 其他应付款冲账摘要怎么写
  • 行政单位经费支出审批权限
  • 工业企业外购材料物资的成本包括
  • sqlserver字符串切割
  • ubuntu系统中怎么安装mathematica13.1.0
  • linux关闭进程kill
  • win7切换输入法的快捷键怎么设置
  • mac电脑安装windows
  • centos6.8修改主机名
  • linux云端服务器
  • javascript解析器
  • js对话框确定事件
  • 安卓开发框架mvvm
  • 批处理系统定义
  • 对应用进行单元测试的是
  • node 回调函数
  • 按钮点击后消失
  • 怎么运用知识点
  • jquery有自定义选择器吗
  • js所有知识点
  • 平安科技在哪
  • 进口完税价格包括哪些部分
  • 怎样在开票系统中增加新的名称
  • 12366纳税服务热线存在的问题
  • 消费税的税率只有比例税率和定额税率两种判断题
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设