位置: IT常识 - 正文

CLIP模型(CLIP模型原理)

编辑:rootadmin
CLIP模型 什么是CLIP

推荐整理分享CLIP模型(CLIP模型原理),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:CLIP模型,CLIP模型原理,CLIP模型是干嘛的,clip模型大小,clip模型大小,clip模型全称,clip模型大小,clip模型什么时候出来的,内容如对您有帮助,希望把文章链接给更多的朋友!

Contrastive Language-Image Pre-Training—CLIP 利用文本的监督信号训练一个迁移能力强的视觉模型

这个模型有什么用呢?想象我们有一个图像分类的任务训练1000个类别,预测一张图片是这1000个类别中的哪一类现在如果加入50个新的类别的图像,试想会发生什么呢?传统的图像分类模型无法对类别进行拓展,想要保证准确率只能从头开始训练,费时费力。CLIP模型就可以用来解决这种问题,预训练后的模型就可以直接进行zero-shot

与前人工作对比:

CLIP论文指出,17年就已经开始有这些方法了,但是没获得太多关注。17年类似方法在ImageNet上的效果只要17%。然后openAI说:不是方法不行,而是资源不到位(暴力出奇迹)一个648解决不了,那就再来十次648.。。。

CLIP的成果:

CLIP在完全不使用ImageNet中所有训练数据的前提下直接Zero-shot得到的结果与ResNet在128W ImageNet数据训练效果一致CLIP使用4亿个配对的数据和文本来进行训练,不标注直接爬取(没有解决transformer训练所需数据量大的缺点)监督训练和zero-shot

在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。 无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。 简而言之:

有监督训练:利用已经打好标签的数据训练模型。无监督训练:训练所用的数据没有任何标签。CLIP模型(CLIP模型原理)

什么是zero-shot(零样本学习):

定义 zero-shot顾名思义即是对某些类别完全不提供训练样本,也就是说没有标注样本的迁移任务被称为zero-shot。不需要任何训练样本就可以直接进行预测模仿人脑的学习能力和知识的迁移能力,根据以往的经验对未知的事物做出预测。

简单的zero-shot的实例:

首先,我们可以将其视为一个类似于自然语言处理的任务,它使用词嵌入(将词汇表中的词或短语映射到实数向量,要求具有相似含义的词将具有相似的词嵌入)。那么对于上面的例子,零样本学习是下面这样来处理的,

训练数据中并没有斑马的图像,但是有带条纹的动物(如老虎),有跟马长得相似的一类动物(如马、驴),还有黑白色的动物(如熊猫)的各种图像。可以提取这些图像的特征(条纹、形状似马、黑/白色)并生成词嵌入,组成字典。然后,我们描述斑马的外观,并使用前面训练集里提出的特征来将斑马的外观转化成相应的词嵌入。最后,当你给模型输入一张斑马的图像,它会先提取图像的特征,转化成词嵌入,然后与字典中最接近的词嵌入进行比较,得出那图像可能是只斑马。

CLIP模型的基本架构

模型训练:

输入图片->图像编码器(vision transformer)->图片特征向量输入文字->文本编码器(text )->文本特征向量对两个特征进行线性投射,得到相同维度的特征,并进行L2归一化计算两个特征向量的相似度(夹角余弦)对n个类别进行softmax,确定个正样本和个负样本,并最大化正样本的权重。# 分别提取图像特征和文本特征I_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# 对两个特征进行线性投射,得到相同维度的特征,并进行l2归一化I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# 计算缩放的余弦相似度:[n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# 对称的对比学习损失:等价于N个类别的cross_entropy_losslabels = np.arange(n) # 对角线元素的labelsloss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2

模型预测:

给出一些文本提升(给出选项)选项中要包含正确答案然后计算每一个文本提升和图片特征的相似度。找到相似度最高的即为正确答案

合理的提示:

预测时的提示非常重要首先是需要一句话或者几个词来提示最好要加上预测的场景,要具有情景的相关性提示要全面,这样预测准确率也会提高。

CLIP模型的展示

本文链接地址:https://www.jiuchutong.com/zhishi/290715.html 转载请保留说明!

上一篇:跨年庆典中燃放的烟花,西班牙萨拉戈萨 (© Martina Badini/Shutterstock)(跨年庆典中燃放的歌曲)

下一篇:落基山国家公园的朗斯峰,科罗拉多州 (© Andrew R. Slaton/Tandem Stills + Motion)(落基山国家公园攻略)

  • 增值税不交什么后果
  • 税务ukey如何清卡
  • 外币收入的增值税是多少
  • 广交会展务
  • 职工意外伤害险赔偿范围
  • 持有待售资产是流动资产吗
  • 记账人和复核人是一个人吗
  • 公司帮其他单位开发票违法吗
  • 简易征收类型
  • 吊车租赁可以开6个点专票吗
  • 新能源汽车补贴2023年政策
  • 远期转账支票怎么取钱
  • 本月没开票怎么报税
  • 折价收购股权会计分录
  • 注册资本金印花税减半征收
  • 企业所得税政策最新2023税率
  • 2018年出口退税税率
  • 教育附加费和地方教育附加费的计算
  • 公司按月支付住房公积金
  • 款已付没有发票就入账
  • 资询服务收入算服务还是劳务
  • 出口信用证议付支出是什么
  • 托收凭证的会计科目
  • 遗属补助是死亡当月发放还是次月发放
  • mac系统怎么更改输入法
  • win7系统打开软件就停止工作
  • 材料没入库的会计分录
  • vue打开窗口
  • 公司赞助商
  • 代理业务收入包括哪些
  • 印克斯湖国家公园中的德克萨斯矢车菊,德克萨斯州 (© Inge Johnsson/Alamy)
  • 退车船税分录
  • php上传文件类型
  • three.js gui
  • 汇兑损益计算方法有哪些
  • 公司采购一直没走对公付款怎么处理
  • 公司购买购物卡送客户的会计分录
  • 本期应纳税额是怎么算
  • 客户赔偿款放在哪里
  • 买一赠一的销售方式
  • mongodb项目使用说明
  • 职工教育经费和职工福利费扣除比例
  • 如何查看发票是否作废
  • 账面价值和公允价值的关系
  • 复利现值系数表系数表
  • 跨年度收取的租金是什么
  • 外贸公司美金账户开立要求
  • 土地出让过程缴纳的费用
  • 高新技术企业财务指标
  • 预付账款为什么不是金融资产
  • 兼职工资怎么做账
  • 事业单位工会经费不足怎么办
  • 收到福利费的专用发票
  • 房产公司销售成本怎么算
  • 会计账簿的设计意义
  • sql server数据库使用
  • ubuntu系统怎么用
  • 在linux系统中
  • win10的数据使用量是什么
  • xp怎么安装framework
  • mac怎么安装新系统
  • 电脑xp系统的设置在哪
  • linux怎么调整屏幕大小
  • win7电脑连不上wifi怎么解决
  • linux使用场合
  • win8系统如何
  • win7旗舰版安装教程u盘
  • 如何教新手
  • win10系统office2007每次打开都要配置
  • 微软6月24
  • 如何关闭win8自带杀毒
  • perl脚本执行顺序
  • Error: String types not allowed (at 'layout_gravity' with value 'bottom/center_horizontal').
  • 由浅入深易,由深入浅难
  • 辽宁省国家税务局电话
  • 办税服务厅限时办结制度
  • 广东税务局查验
  • 视同销售行为的进项税额抵扣方法?
  • 缴纳了车辆购置税能退吗
  • 社保在线审核
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设