位置: IT常识 - 正文

CLIP模型(CLIP模型原理)

编辑:rootadmin
CLIP模型 什么是CLIP

推荐整理分享CLIP模型(CLIP模型原理),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:CLIP模型,CLIP模型原理,CLIP模型是干嘛的,clip模型大小,clip模型大小,clip模型全称,clip模型大小,clip模型什么时候出来的,内容如对您有帮助,希望把文章链接给更多的朋友!

Contrastive Language-Image Pre-Training—CLIP 利用文本的监督信号训练一个迁移能力强的视觉模型

这个模型有什么用呢?想象我们有一个图像分类的任务训练1000个类别,预测一张图片是这1000个类别中的哪一类现在如果加入50个新的类别的图像,试想会发生什么呢?传统的图像分类模型无法对类别进行拓展,想要保证准确率只能从头开始训练,费时费力。CLIP模型就可以用来解决这种问题,预训练后的模型就可以直接进行zero-shot

与前人工作对比:

CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法在ImageNet上的效果只要17%。然后openAI说:不是方法不行,而是资源不到位(暴力出奇迹)一个648解决不了,那就再来十次648.。。。

CLIP的成果:

CLIP在完全不使用ImageNet中所有训练数据的前提下直接Zero-shot得到的结果与ResNet在128W ImageNet数据训练效果一致CLIP使用4亿个配对的数据和文本来进行训练,不标注直接爬取(没有解决transformer训练所需数据量大的缺点)监督训练和zero-shot

在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。 无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。 简而言之:

有监督训练:利用已经打好标签的数据训练模型。无监督训练:训练所用的数据没有任何标签。CLIP模型(CLIP模型原理)

什么是zero-shot(零样本学习):

定义 zero-shot顾名思义即是对某些类别完全不提供训练样本,也就是说没有标注样本的迁移任务被称为zero-shot。不需要任何训练样本就可以直接进行预测模仿人脑的学习能力和知识的迁移能力,根据以往的经验对未知的事物做出预测。

简单的zero-shot的实例:

首先,我们可以将其视为一个类似于自然语言处理的任务,它使用词嵌入(将词汇表中的词或短语映射到实数向量,要求具有相似含义的词将具有相似的词嵌入)。那么对于上面的例子,零样本学习是下面这样来处理的,

训练数据中并没有斑马的图像,但是有带条纹的动物(如老虎),有跟马长得相似的一类动物(如马、驴),还有黑白色的动物(如熊猫)的各种图像。可以提取这些图像的特征(条纹、形状似马、黑/白色)并生成词嵌入,组成字典。然后,我们描述斑马的外观,并使用前面训练集里提出的特征来将斑马的外观转化成相应的词嵌入。最后,当你给模型输入一张斑马的图像,它会先提取图像的特征,转化成词嵌入,然后与字典中最接近的词嵌入进行比较,得出那图像可能是只斑马。

CLIP模型的基本架构

模型训练:

输入图片->图像编码器(vision transformer)->图片特征向量输入文字->文本编码器(text )->文本特征向量对两个特征进行线性投射,得到相同维度的特征,并进行L2归一化计算两个特征向量的相似度(夹角余弦)对n个类别进行softmax,确定个正样本和个负样本,并最大化正样本的权重。# 分别提取图像特征和文本特征I_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# 对两个特征进行线性投射,得到相同维度的特征,并进行l2归一化I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# 计算缩放的余弦相似度:[n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# 对称的对比学习损失:等价于N个类别的cross_entropy_losslabels = np.arange(n) # 对角线元素的labelsloss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2

模型预测:

给出一些文本提升(给出选项)选项中要包含正确答案然后计算每一个文本提升和图片特征的相似度。找到相似度最高的即为正确答案

合理的提示:

预测时的提示非常重要首先是需要一句话或者几个词来提示最好要加上预测的场景,要具有情景的相关性提示要全面,这样预测准确率也会提高。

CLIP模型的展示

本文链接地址:https://www.jiuchutong.com/zhishi/290715.html 转载请保留说明!

上一篇:跨年庆典中燃放的烟花,西班牙萨拉戈萨 (© Martina Badini/Shutterstock)(跨年庆典中燃放的歌曲)

下一篇:落基山国家公园的朗斯峰,科罗拉多州 (© Andrew R. Slaton/Tandem Stills + Motion)(落基山国家公园攻略)

  • oppo手机怎样把联系人放到手机桌面上(oppo手机怎样把照片上传到电脑)

    oppo手机怎样把联系人放到手机桌面上(oppo手机怎样把照片上传到电脑)

  • 华为p30勿扰模式怎么设置(华为p30设置勿扰模式)

    华为p30勿扰模式怎么设置(华为p30设置勿扰模式)

  • 回收箱里删除的东西可以恢复吗(回收箱里删除的文件)

    回收箱里删除的东西可以恢复吗(回收箱里删除的文件)

  • 怎样用手机扫描文件成电子版(怎样用手机扫描文件)

    怎样用手机扫描文件成电子版(怎样用手机扫描文件)

  • mate20pro充电器多少w(mate20pro充电器多久)

    mate20pro充电器多少w(mate20pro充电器多久)

  • windows是什么系统(windows是什么电脑)

    windows是什么系统(windows是什么电脑)

  • 手机爱奇艺怎么弄清晰度(手机爱奇艺怎么投屏到电脑上)

    手机爱奇艺怎么弄清晰度(手机爱奇艺怎么投屏到电脑上)

  • nova5pro屏幕刷新率(nova5pro屏幕刷新率是多少)

    nova5pro屏幕刷新率(nova5pro屏幕刷新率是多少)

  • 微信转存为笔记是啥意思(微信转存为笔记是什么)

    微信转存为笔记是啥意思(微信转存为笔记是什么)

  • 联想电脑亮度在哪里调(联想电脑亮度太低怎么调)

    联想电脑亮度在哪里调(联想电脑亮度太低怎么调)

  • 华为手环和手表的区别(华为手环和手表充电器通用吗)

    华为手环和手表的区别(华为手环和手表充电器通用吗)

  • sqe工程师职责是什么(sqe工程师工作流程)

    sqe工程师职责是什么(sqe工程师工作流程)

  • 子网掩码的作用是什么(ip地址子网掩码的作用)

    子网掩码的作用是什么(ip地址子网掩码的作用)

  • 小米6怎么设置信息显示(小米6怎么设置锁屏壁纸)

    小米6怎么设置信息显示(小米6怎么设置锁屏壁纸)

  • 苹果12.1.3什么时候出(苹果12.2版本什么时候出来的)

    苹果12.1.3什么时候出(苹果12.2版本什么时候出来的)

  • 72mbps是多少兆的网速(72mbps相当于多少兆)

    72mbps是多少兆的网速(72mbps相当于多少兆)

  • iphone怎么将推送消息禁止(苹果手机推送功能设置在哪)

    iphone怎么将推送消息禁止(苹果手机推送功能设置在哪)

  •  密码锁指纹不感应了(密码锁指纹不灵敏)

    密码锁指纹不感应了(密码锁指纹不灵敏)

  • 为什么打不出电话(为什么打不出电话也接不进来)

    为什么打不出电话(为什么打不出电话也接不进来)

  • 键盘驱动怎么修复(键盘驱动坏了怎么重装系统)

    键盘驱动怎么修复(键盘驱动坏了怎么重装系统)

  • 舍夫沙万的蓝色墙壁,摩洛哥 (© Tatsuya Ohinata/Getty Images)(舍夫沙万的蓝色是什么意思)

    舍夫沙万的蓝色墙壁,摩洛哥 (© Tatsuya Ohinata/Getty Images)(舍夫沙万的蓝色是什么意思)

  • 前端几种下载文件的方式(url方式和文件流方式)(前端几种下载文件)

    前端几种下载文件的方式(url方式和文件流方式)(前端几种下载文件)

  • 如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型?(如何使用openAI总结小说内容)

    如何使用OpenAI fine-tuning(微调)训练属于自己专有的ChatGPT模型?(如何使用openAI总结小说内容)

  • 深究Python中的asyncio库-线程并发函数

    深究Python中的asyncio库-线程并发函数

  • 年底企业所得税计提少了
  • 房产企业季度预测
  • 企业要本地迁往隔壁县区,税务要注销吗
  • 无法支付其他应付款说明
  • 小规模纳税人能用专票抵税吗
  • 带息负债融资成本
  • 新注册公司实收资本为0
  • 房地产企业土地增值税
  • 法院判决书能做证据使用吗
  • 房屋建筑物折旧率计算
  • 福利费用发票可以抵扣
  • 旅行社开具发票
  • 租个人房子开发票税率是多少
  • 设备安装增值税适用税率
  • 公司购买的冰箱供员工使用
  • 补发工资个人所得税怎么申报
  • 人工费用占销售收入比重
  • 防暑降温需要缴什么费用
  • 个体工商户允许哪些经营范围
  • 总分类账户和明细分类账户平行登记的内容可以概括为
  • 企业捐赠现金支出应在哪个项目反应
  • 职工食堂报销经费标准
  • 存货跌价准备怎么计提
  • 新公司税控盘购买流程
  • 小规模库存商品结转成本太低怎么办
  • 政府单位没有税号怎么开普票
  • 出口退税 免税
  • windows10怎么设置自启动
  • 现在windows11
  • php验证码代码怎么写
  • Mail.app增强插件:Universal Mailer介绍
  • 中央公园纽约的历史背景
  • PHP:imagepalettetotruecolor()的用法_GD库图像处理函数
  • php.ini详解
  • php各个框架的优缺点
  • 网络电话综合布线
  • 程序员的表白情书
  • vue项目更新后还是老代码
  • ps怎么把皮肤变红润
  • 应收账款周转率多少合适
  • 金税服务费必须交吗
  • 清算存货分配给股东账分录
  • 税务异常怎么处理要多长时间
  • sqlserver2005属于
  • 淘宝开店的钱怎么取出来
  • 一般纳税人实际税负怎么核算
  • 材料成本差异的会计分录
  • 应付账款的主要舞弊形式
  • 仓库转租合同
  • 临时工受伤赔偿怎么做账
  • 购进商品发生溢余
  • 出口退税进项票跨月勾选
  • 公司不按照劳动法给工资怎么办
  • 个体工商户记账报税教程
  • 报销单与发票金额不符看什么
  • 实际利率与名义利率的换算
  • sql server233错误
  • mysql 5.7.28安装
  • win8系统怎么关机
  • windows不认u盘
  • win8系统打不开exe
  • win7系统自带的截屏工具怎么打开
  • 设计模式中的行为模式
  • css行与行之间的间距怎么调
  • js全局方法
  • android源码分析实录
  • 网页javascript错误
  • Node.js中的全局对象有
  • 每次开机windows桌面更新
  • 安全工具有哪些
  • auto.js粘贴代码
  • js中scrollHeight,scrollWidth,scrollLeft,scrolltop等差别介绍
  • jquery.form
  • js 队列
  • 车辆购置税查询不到
  • 车辆购置税查询不到应征欠税信息,不能进行扣款操作
  • 志愿者补贴如何领取
  • 仓储物流企业的事故指标
  • 物业监控不完善怎么提意见
  • epc项目不接受联合体投标违规吗
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设