位置: IT常识 - 正文

CLIP模型(CLIP模型原理)

编辑:rootadmin
CLIP模型 什么是CLIP

推荐整理分享CLIP模型(CLIP模型原理),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:CLIP模型,CLIP模型原理,CLIP模型是干嘛的,clip模型大小,clip模型大小,clip模型全称,clip模型大小,clip模型什么时候出来的,内容如对您有帮助,希望把文章链接给更多的朋友!

Contrastive Language-Image Pre-Training—CLIP 利用文本的监督信号训练一个迁移能力强的视觉模型

这个模型有什么用呢?想象我们有一个图像分类的任务训练1000个类别,预测一张图片是这1000个类别中的哪一类现在如果加入50个新的类别的图像,试想会发生什么呢?传统的图像分类模型无法对类别进行拓展,想要保证准确率只能从头开始训练,费时费力。CLIP模型就可以用来解决这种问题,预训练后的模型就可以直接进行zero-shot

与前人工作对比:

CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法在ImageNet上的效果只要17%。然后openAI说:不是方法不行,而是资源不到位(暴力出奇迹)一个648解决不了,那就再来十次648.。。。

CLIP的成果:

CLIP在完全不使用ImageNet中所有训练数据的前提下直接Zero-shot得到的结果与ResNet在128W ImageNet数据训练效果一致CLIP使用4亿个配对的数据和文本来进行训练,不标注直接爬取(没有解决transformer训练所需数据量大的缺点)监督训练和zero-shot

在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。 无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。 简而言之:

有监督训练:利用已经打好标签的数据训练模型。无监督训练:训练所用的数据没有任何标签。CLIP模型(CLIP模型原理)

什么是zero-shot(零样本学习):

定义 zero-shot顾名思义即是对某些类别完全不提供训练样本,也就是说没有标注样本的迁移任务被称为zero-shot。不需要任何训练样本就可以直接进行预测模仿人脑的学习能力和知识的迁移能力,根据以往的经验对未知的事物做出预测。

简单的zero-shot的实例:

首先,我们可以将其视为一个类似于自然语言处理的任务,它使用词嵌入(将词汇表中的词或短语映射到实数向量,要求具有相似含义的词将具有相似的词嵌入)。那么对于上面的例子,零样本学习是下面这样来处理的,

训练数据中并没有斑马的图像,但是有带条纹的动物(如老虎),有跟马长得相似的一类动物(如马、驴),还有黑白色的动物(如熊猫)的各种图像。可以提取这些图像的特征(条纹、形状似马、黑/白色)并生成词嵌入,组成字典。然后,我们描述斑马的外观,并使用前面训练集里提出的特征来将斑马的外观转化成相应的词嵌入。最后,当你给模型输入一张斑马的图像,它会先提取图像的特征,转化成词嵌入,然后与字典中最接近的词嵌入进行比较,得出那图像可能是只斑马。

CLIP模型的基本架构

模型训练:

输入图片->图像编码器(vision transformer)->图片特征向量输入文字->文本编码器(text )->文本特征向量对两个特征进行线性投射,得到相同维度的特征,并进行L2归一化计算两个特征向量的相似度(夹角余弦)对n个类别进行softmax,确定个正样本和个负样本,并最大化正样本的权重。# 分别提取图像特征和文本特征I_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# 对两个特征进行线性投射,得到相同维度的特征,并进行l2归一化I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# 计算缩放的余弦相似度:[n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# 对称的对比学习损失:等价于N个类别的cross_entropy_losslabels = np.arange(n) # 对角线元素的labelsloss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2

模型预测:

给出一些文本提升(给出选项)选项中要包含正确答案然后计算每一个文本提升和图片特征的相似度。找到相似度最高的即为正确答案

合理的提示:

预测时的提示非常重要首先是需要一句话或者几个词来提示最好要加上预测的场景,要具有情景的相关性提示要全面,这样预测准确率也会提高。

CLIP模型的展示

本文链接地址:https://www.jiuchutong.com/zhishi/290715.html 转载请保留说明!

上一篇:跨年庆典中燃放的烟花,西班牙萨拉戈萨 (© Martina Badini/Shutterstock)(跨年庆典中燃放的歌曲)

下一篇:落基山国家公园的朗斯峰,科罗拉多州 (© Andrew R. Slaton/Tandem Stills + Motion)(落基山国家公园攻略)

  • 论坛发帖推广七大技巧(论坛发帖推广七律怎么写)

    论坛发帖推广七大技巧(论坛发帖推广七律怎么写)

  • 苹果13promax怎么添加小组件(苹果13promax怎么强制重启)

    苹果13promax怎么添加小组件(苹果13promax怎么强制重启)

  • 陌陌合拍功能怎样用(陌陌合拍功能怎么设置)

    陌陌合拍功能怎样用(陌陌合拍功能怎么设置)

  • 华为手机播放视频无法放大(华为手机播放视频有滋滋声)

    华为手机播放视频无法放大(华为手机播放视频有滋滋声)

  • 点关注是什么意思(关注是什么意思?)

    点关注是什么意思(关注是什么意思?)

  • 特价版淘宝和手机淘宝一样吗(特价版淘宝与手机淘宝的区别?)

    特价版淘宝和手机淘宝一样吗(特价版淘宝与手机淘宝的区别?)

  • 戴尔笔记本显卡在哪个位置(戴尔笔记本显卡多少钱)

    戴尔笔记本显卡在哪个位置(戴尔笔记本显卡多少钱)

  • powerpoint2010演示文稿的扩展名(powerpoint2010课件)

    powerpoint2010演示文稿的扩展名(powerpoint2010课件)

  • 快手注销第三项不通过(快手注销账户是什么意思啊)

    快手注销第三项不通过(快手注销账户是什么意思啊)

  • 怎样检测手机是否弯曲(怎样检测手机是不是新机)

    怎样检测手机是否弯曲(怎样检测手机是不是新机)

  • qq在线状态怎么没有了(qq在线状态怎么不显示Wi-Fi)

    qq在线状态怎么没有了(qq在线状态怎么不显示Wi-Fi)

  • 什么是微信网格群(微信网格背景图)

    什么是微信网格群(微信网格背景图)

  • 快手pk受限制怎么回事(快手pk受限制怎么办)

    快手pk受限制怎么回事(快手pk受限制怎么办)

  • oppor11充电器是多少v(oppor11充电器是闪充吗)

    oppor11充电器是多少v(oppor11充电器是闪充吗)

  • 小米8夜光屏是什么意思(小米8夜光屏是什么牌子)

    小米8夜光屏是什么意思(小米8夜光屏是什么牌子)

  • 微信视频关机自己能看到吗(微信视频手机自动关机后还可以继续)

    微信视频关机自己能看到吗(微信视频手机自动关机后还可以继续)

  • 苹果手机云盘什么意思(iphone的云盘)

    苹果手机云盘什么意思(iphone的云盘)

  • 微信横屏模式什么意思(微信横屏模式什么时候有的)

    微信横屏模式什么意思(微信横屏模式什么时候有的)

  • 12306网上订餐怎么订(如何在12306订餐)

    12306网上订餐怎么订(如何在12306订餐)

  • 腾讯视频怎么修改青少年(腾讯视频怎么修改绑定的手机号)

    腾讯视频怎么修改青少年(腾讯视频怎么修改绑定的手机号)

  • 火山视频怎么屏蔽别人(火山视频如何横屏看)

    火山视频怎么屏蔽别人(火山视频如何横屏看)

  • 老人机怎么调声音(老人机怎么调节音量?)

    老人机怎么调声音(老人机怎么调节音量?)

  • 苹果手机电话簿怎么复制到卡里面(苹果手机电话簿怎么看不到联系人了)

    苹果手机电话簿怎么复制到卡里面(苹果手机电话簿怎么看不到联系人了)

  • 华为p30pro长度(华为p30pro长度尺寸)

    华为p30pro长度(华为p30pro长度尺寸)

  • ppt能旋转视频吗

    ppt能旋转视频吗

  • 毕业设计-基于深度学习的医学影像分割(毕业设计基于51单片机多功能电子钟的设计)

    毕业设计-基于深度学习的医学影像分割(毕业设计基于51单片机多功能电子钟的设计)

  • 基于imx8m plus开发板全体系开发教程4:Linux系统开发(imx6ul开源项目)

    基于imx8m plus开发板全体系开发教程4:Linux系统开发(imx6ul开源项目)

  • 医疗批发企业增值税税负率大概是多少
  • 领发票凭证做什么用
  • 小规模纳税人建筑服务税率是多少
  • 毛利和销售毛利
  • 销售补差怎么做分析
  • 代人开增值税怎么收费?
  • 取得租金收入的会计分录
  • 应收账款平均数
  • 填制凭证的内容通常包括
  • 加油站的成品油许可证变更过后有什么风险
  • 无票收入应附什么单据
  • 企业员工已公司名义参加境外比赛获得奖金如何缴税?
  • 失控发票如何认定
  • 杭州增值税发票查询
  • 财会〔2017〕22号:《企业会计准则第14号收入》的通知
  • 公司一季度报表一般是什么时候出
  • 税前可以扣除的管理费用计算公式
  • 境外施工
  • 企业银行存款账户核算的内容有
  • 有限责任公司向合伙企业投资
  • 技术服务费进项发票怎么做分录
  • 电脑黑屏怎么办主机还是亮的
  • 无形资产入账包括增值税吗
  • 发票被盗丢失如何处理
  • 硬盘分区的原则主要有哪些
  • 浏览器播放视频加速怎么设置
  • 刚成立的公司有什么风险
  • pc安装苹果系统
  • 建安营改增时间
  • 经营免租期是什么意思
  • 高手成长礼包
  • 关联方的四种认证方式
  • 爱德华王子岛的气候
  • php遍历对象
  • css元素居中的几种方法
  • 企业在搬迁期间发生的搬迁收入和搬迁支出
  • php curlfile
  • php制作日历代码
  • shapecfg命令 管制网络设备的流量
  • 宝塔面板要安装什么环境
  • 小企业汇兑损失
  • 销售产品收到现金的会计分录
  • 织梦模板如何安装
  • 帝国cms文件夹介绍
  • 代收往来款的会计分录
  • 外出经营税收缴纳
  • 税前扣除项目主要包括
  • 广告公司可以不开发票吗
  • 汇算清缴时资产折旧怎么填
  • 专用发票的用途
  • 公司收到社保打款怎么办
  • 设备租金收入计什么科目
  • 个税多缴了纳税人怎么办
  • 明细账的设置与登记
  • mysql如何优化sql查询
  • unix是什么语言
  • win7系统怎么设置开机启动项
  • macbook怎么玩ios游戏
  • linux如何使用
  • u盘安装win7系统教程图解
  • aow进程
  • win10怎么解除网吧下载限速
  • win8如何查看所有程序
  • win10如何快速打开设置
  • win10开机出现microsoft
  • Windows 8中Hyper-V虚拟机操作应用的具体步骤
  • win8使用教程和技能
  • win8如何升级系统
  • win7电脑无法上网 连接正常
  • jqueryvalidate验证
  • 本科生面试的自我介绍
  • xcopy /i
  • python汉字字符
  • mysql数据类型大全
  • android面试题2019
  • android view view
  • 湖南省国家税务局历任局长
  • 网上查询公司营业执照
  • 租赁发票交多少税费
  • 预到船舶是什么
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设