位置: IT常识 - 正文

CLIP论文详解(ldpc论文)

编辑:rootadmin
CLIP论文详解 CLIP论文详解 – 潘登同学的深度学习笔记文章目录CLIP论文详解 -- 潘登同学的深度学习笔记前言整体架构Pre-trainZero-shot实验大范围数据集结果few-shot与zero-shot的对比Representation Learning模型的泛化性与人进行对比局限性和不足前言

推荐整理分享CLIP论文详解(ldpc论文),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:论文caption,论文中的claims,论文中的claims,论文implications,论文implication,论文implication,clip analysis,clip analysis,内容如对您有帮助,希望把文章链接给更多的朋友!

CLIP算是在跨模态训练无监督中的开创性工作,作者在开头梳理了现在vision上的训练方式,从有监督的训练,到弱监督训练,再到最终的无监督训练。这样训练的好处在于可以避免的有监督的 categorical label的限制,具有zero-shot性质,极大的提升了模型的实用性能。

zero-shot:是指零样本学习,在别的数据集上学习好了,直接迁移做分类;

这篇文章中作者提到早在2017年之后就陆续有工作提出和本文类似的想法,但是他们的数据大小都太小了,导致没有很好的结果。作者单独收集了一份含有4亿份数据的大数据集,才得以得到很好的效果。这种现象最近好像在机器学习领域越来越突出,力大砖飞,这无疑降低了benchmark的可信性,而且增加了小工作组的压力。

此外作者提到prompt engineering and ensembling也是一个值得研究的方向,也就是生成的template如果能够结合对应的dataset的特征,相当于给予模型额外的信息;

为什么CLIP要采用对比学习的方法

OpenAI是一家从来不愁计算资源的公司,他们喜欢将一切都gpt化(就是做生成式模型);但是以往的工作表明(ResNeXt101-32x48d, Noisy Student EfficientNet-L2),训练资源往往需要很多,何况这些都只是在ImageNet上的结果,只是1000类的分类任务,而CLIP要做的是开发世界的视觉识别任务,所以训练的效率对于自监督的模型至关重要;而如果任务改为给定一张图片去预测一个文本(或者给定一个文本去预测一张图片),那么训练效率将会非常低下(因为一个图片可能对应很多种说法,一个文本也对应着很多种场景);所以与其做默写古诗词,不如做选择题!(只要判断哪一个文本与图片配对即可);通过从预测任务改为只预测某个单词到只选出配对的答案,模型的训练效率一下提升了4倍;

整体架构

作者团队收集的4亿的图片文本对作为训练样本,称之为WIT(因为以往有的数据集要么是规模太小, MS-COCO,Visual Genome,要么是数据标注质量太差YFCC100M);在一个batch中输入32768个图片文本对,(I1,T1)(I_1,T_1)(I1​,T1​),则是第一个图像文本对,模型的目的是使这两个特征尽量相似,而与别的特征尽量远离;Pre-train

训练阶段

一个图片经过Image_encoder得到特征IfI_fIf​,一个文本经过text_encoder得到特征TfT_fTf​;两个特征分别经过不同的FC层(目的是将单模态的特征转化为多模态,因为图片的特征可能本身就与文本的不一致,需要转换,但是这里没接激活函数,因为作者发现在多模态下接不接都一样);再做一次L2归一化;计算余弦相似度,得到logits;logits与GT计算交叉熵目标函数;而这里的GT就是一个单位阵(因为目标是配对样本之间相似性最强为1,而其他为0);最后将图片的loss与文本的loss加起来求平均即可;

主干模型

在文本方面就是Transformer;在图像方面选择了5中ResNets(ResNet-50,ResNet-101,3个EfficientNet的变体,ResNet-50x4,ResNet-50x16,ResNet-50x64)和三种VIT(分贝是VIT-B/32,VIT-B/16,VIT-L/14)Zero-shot

CLIP 文章的核心 = Zero-shot Transfer

作者研究迁移学习的动机:

之前自监督or无监督的方法,主要研究 frature 学习的能力,model的目标是学习泛化性能好的特征,虽然学习到good-feature,但down-owrk中,还是需要有标签数据做微调。作者想仅训练一个model,在down-work中不再微调。 推理阶段

将要做的分类以填空的形式填进一句话中,以ImageNet为例就是1000句话输入Text Encoder得到输出;

将要识别的图片经过Image Encoder得到图片输出,比较文本的输出与图片的输出,选择最相似的那句话就是图片的类别;

CLIP论文详解(ldpc论文)

与之前Zero-shot模型的对比

Prompt 方法在什么时候用

Prompt是提示的意思,对model进行微调和直接做推理时有效;

为什么要用 prompt engineering and ensembling

由于一个word 具有多义性,图片和文字匹配容易出错,所以作者将word放在语境中,来提高匹配度;Prompt不仅能做匹配;一旦加入这个prompt engineering and ensembling,准确度上升了1.3%;

最后在CLIP中,总共用了80个prompt template之多;

实验大范围数据集结果

做了27个数据集的分类任务,baseline是ResNet-50,ResNet-50是有监督模型在各个数据集上训练好的, 然后两个模型在其他数据集上zero-shot;

在大多数分类任务,给车、食物等做分类的问题上CLIP都表现的很好, 但是在DTD这种纹理进行分类或CLEVRCounts给物体计数的任务,对于CLIP无监督模型来说就很难了;

所以作者认为在这些更难的数据集做few-shot可能比zero-shot更好;

few-shot与zero-shot的对比

few-shot也是将back-blone冻住,训练分类头;

横坐标是指在每个类别中选出了几个训练样本,纵坐标就是模型的准确率了(在20个数据集上的平均结果,因为有7个数据集中有些训练样本不足16个);

因为别的模型不是多模态的,所以只能从1-shot开始;其中,BiT-M是google中bit transfer的一个模型,专门为迁移学习量身定做的,而zero-shot的CLIP直接与few-shot的BiT-M打成平手;而CLIP可以从zero-shot开始;可以看出当学习样本很少的时候CLIPfew-shot的表现还不如zero-shot;Representation Learning

为了证明Pre-Train的成功,CLIP将预训练好的模型在下游任务中做了Linear probe,就是模型主体冻住,只调Linear分类头,因为这样不用太多的调参,也能证明模型的特征学的好不好;

其中横坐标是一次前向过程的计算量,纵坐标是分类准确度;可以看出CLIP是在计算量与准确度方面trade-off做的最好的一个模型;模型的泛化性

当数据有distribution shift的时候,模型的表现如何,这是CLIP最惊艳的结果:

可以看出CLIP在数据分布的偏移样本上,远远超过ResNet101,而且结果保持地依旧稳健;与人进行对比

将CLIP与人进行zero-shot,one-shot,two-shot的对比,分类的物体是37种狗和猫的图片;

可以看出人在zero-shot与one-shot的差别是很大的,表明人学习的能力是很强的;但是人的one-shot与two-shot区别不大,说明了人在没有先验知识,只是通过样本学习,不一定能学的更好;

除此之外,作者还将这些类的分类结果列了出来

可以看出在人判断准确率较高的类别上,机器的准确率也高;在人判断不准的类别上,机器判断也不准;说明人与机器学到的数据分布很接近;局限性和不足平均来看,CLIIP可以和机械模型(ResNet-50(在ImageNet上训练))持平, 若继续增加数据集和model规模,CLIP性能可以继续提高,但是代价很大(需提高计算和数据的高效性;但与Noisy Student的88还是有很大差距;zreo-shot结果并不好在细分类数据集上,CLIP效果低于(有监督训练)ResNet-50(baseline网络);CLIP无法处理抽象概念,如数数任务,或者判断一个监控画面是正常还是异常;在很多领域,CLIP性能和瞎猜差不多;若数据集中的data 已经 out-of-distribution,那么CLIP-model泛化照样差;(在MNIST数据集上,CLIP准确率仅有88%; 因为作者收集的数据集有4亿个样本,但没有和MINIS长得像的,所以MINIS数据集对于CLIP来说就是out-of-distribution数据集);CLIP这个模型没什么大不了的,和普通的DL-model差不多,都很脆弱。CLIP不能高效利用数据训练了epoch = 32,每个epoch过4亿个图片,跑了128亿张图片,如果一秒一张需要405年;数据用量多,作者希望减少数据用量,(三种方案: 数据增强,自监督,伪标签)用所有数据进行训练,调整很多次模型结构和超参数,才得出好结果,且每次用ImageNet数据集作为指导。所以CLIP并非做出真正的zero-shot工作。(选择偏差)爬取图片未清洗和审查(有社会偏见,OpenAI不开源经典借口)语言无法描述太复杂的概念

作者想要:

把一切都GPT(生成式模型)化,因为CLIP还是根据给定的1000个选项去选择到底是那个类比,作者更像直接一张图片,然后生成对应的标题。但受限于计算资源,作者没法做成 ” 自动生成模型 “ 的网络。(以后的DALL)
本文链接地址:https://www.jiuchutong.com/zhishi/296196.html 转载请保留说明!

上一篇:OpenCV实战(15)——轮廓检测详解(opencv.)

下一篇:js获取当前日期,格式 YYYY-MM-DD HH:mm:ss(js获取当前日期的函数)

  • 深圳地铁乘车码在微信哪里(深圳地铁乘车码小程序)

    深圳地铁乘车码在微信哪里(深圳地铁乘车码小程序)

  • 小红书怎么关闭薯小虎(小红书怎么关闭在线状态)

    小红书怎么关闭薯小虎(小红书怎么关闭在线状态)

  • 小米9pro为什么下架了(小米9pro为什么不能用5G网络)

    小米9pro为什么下架了(小米9pro为什么不能用5G网络)

  • 闲鱼上发布的商品不显示(闲鱼上发布的商品怎么找不到)

    闲鱼上发布的商品不显示(闲鱼上发布的商品怎么找不到)

  • qq音乐怎么删除关注的人(qq音乐怎么删除访客记录)

    qq音乐怎么删除关注的人(qq音乐怎么删除访客记录)

  • 三星手机黑屏怎么恢复(三星手机黑屏怎么导出数据)

    三星手机黑屏怎么恢复(三星手机黑屏怎么导出数据)

  • 3.5音频线三根线怎么接(3.5音频线三根线分别是)

    3.5音频线三根线怎么接(3.5音频线三根线分别是)

  • xbox one x和s区别(xbox ones和x的区别)

    xbox one x和s区别(xbox ones和x的区别)

  • 苹果手机悬浮球突然没了怎么办(苹果手机悬浮球锁屏在哪里设置)

    苹果手机悬浮球突然没了怎么办(苹果手机悬浮球锁屏在哪里设置)

  • u盘进水了电脑读不出来怎么办(u盘进水插电脑没反应)

    u盘进水了电脑读不出来怎么办(u盘进水插电脑没反应)

  • nova7pro是双扬声器吗(nova7pro支持双扬声器)

    nova7pro是双扬声器吗(nova7pro支持双扬声器)

  • 快手怎么看谁分享了我的作品(快手怎么看谁分享了我的主页)

    快手怎么看谁分享了我的作品(快手怎么看谁分享了我的主页)

  • 探探每天可以划多少次(探探一天能滑多少次)

    探探每天可以划多少次(探探一天能滑多少次)

  • 爱奇艺登录失效原因(爱奇艺登录失效是被踢了吗 ipad)

    爱奇艺登录失效原因(爱奇艺登录失效是被踢了吗 ipad)

  • 录音比特率是什么意思(录音机的比特率)

    录音比特率是什么意思(录音机的比特率)

  • 为什么视频发不出(为什么视频发不到朋友圈里去?)

    为什么视频发不出(为什么视频发不到朋友圈里去?)

  • 手机200w景深镜头有什么用(手机200w景深镜头多少钱)

    手机200w景深镜头有什么用(手机200w景深镜头多少钱)

  • 华为怎么查看激活日期(华为怎么查看激活码)

    华为怎么查看激活日期(华为怎么查看激活码)

  • 西数蓝盘和绿盘的区别(西数蓝盘和绿盘速度)

    西数蓝盘和绿盘的区别(西数蓝盘和绿盘速度)

  • 华为cazal10是什么型号(cazal10是华为啥型号多少钱)

    华为cazal10是什么型号(cazal10是华为啥型号多少钱)

  • 服务器是什么系统(服务器是?)

    服务器是什么系统(服务器是?)

  • xs xr区别(xs xr什么区别 哪个更好)

    xs xr区别(xs xr什么区别 哪个更好)

  • 工资理财怎么取出来(工资理财的钱怎么转出来)

    工资理财怎么取出来(工资理财的钱怎么转出来)

  • 虎牙私信在哪看(虎牙私聊在哪里看)

    虎牙私信在哪看(虎牙私聊在哪里看)

  • 红米note7和note7pro的区别(红米note7和note7pro外观一样吗)

    红米note7和note7pro的区别(红米note7和note7pro外观一样吗)

  • 苹果电脑如何缩小图片无需第三方软件(苹果电脑如何缩小图片大小)

    苹果电脑如何缩小图片无需第三方软件(苹果电脑如何缩小图片大小)

  • 一键免费部署你的私人 ChatGPT 网站(一键部署web应用)

    一键免费部署你的私人 ChatGPT 网站(一键部署web应用)

  • 计提印花税会计分录
  • 餐饮业购买的油类有哪些
  • 报账单大写金额填写方式
  • 发票红票和退票区别在哪
  • 土地款发票是否可以抵扣
  • 残次品销售账务处理
  • 增值税发票记账联要盖章吗
  • 可转换债券含义
  • 公转私可以实时到账吗
  • 银行转账结算方式的种类及适用范围
  • 无发票材料可以入材料账吗
  • 没有实收资本是负债吗
  • 无偿使用期限为多少年
  • 融资租赁承租人和出租人的会计处理
  • 食堂买的固定资产怎么帐务处理
  • 稳定性流动资产是经营性流动资产吗
  • 现金存入公司账户风险大吗安全吗
  • 没有收到发票的支出可以做成本吗
  • 生产车间员工体检费怎么入账
  • 重置申报清册是什么意思
  • 专家费怎么做账没发票
  • 个人其他应收款在贷方表示什么
  • 房产公司增值税怎么交
  • 净资产回报率的变化
  • 货币资金包括哪些
  • 从农民手中收购农产品增值税处理
  • ppt文件打不开了怎么办
  • 跟a签订合同可以撤销吗
  • PHP:oci_lob_copy()的用法_Oracle函数
  • 送给经销商的祝福语
  • php数组函数面试题
  • 强化税收风险意识
  • 汇算清缴期结束后
  • 存货按实际成本计价是指每种存货的收发结存
  • 下一页分页符中间空白页
  • 拨缴经费收入上解部分
  • php变量使用之前需要定义变量类型
  • 关于商业承兑汇票的多选题有哪些
  • php单例模式懒汉和饿汉
  • gawk命令 模式扫描与处理语言
  • 数学建模python 怎么用
  • ps里的羽化是什么意思
  • urljoin使用
  • 公司的日常费用包括哪些
  • php登录不了
  • 个税申报表中的年金是什么意思?
  • 如何在sql server中建立一个表
  • mysql日志有哪些
  • 办公室租金产生的税率
  • 外商投资的企业有哪些
  • 加计扣除产生的利润可以分配吗
  • 支付稿费需要发票吗
  • 用人单位劳务派遣人员工资怎么做账
  • 项目前期的研发费用
  • 公司给的佣金需要上多少税
  • 公司收到美元怎么交税啊
  • mysql保存命令
  • 你所不知道的童话动画版免费观看
  • ubuntu14.04 LTS 下vsftpd安装与配置教程详解
  • 怎么查看win7系统电脑访问了哪些应用程序
  • 苹果电脑mac设备怎么删除
  • Win7怎么关闭自动更新
  • 微软win8.1
  • win10任务栏不显示输入法
  • exceltype函数的用法
  • rhel7.6安装
  • 在flash中制作课件一般会遵循什么流程
  • xbox无法连接无线网络
  • opencv人脸识别模型训练
  • android 属性动画改变view大小
  • 关于Python的lambda函数,以下选项
  • Jar mismatch! Fix your dependencies
  • js浮动窗口
  • android navigation bar
  • 安卓多点触屏在哪里设置
  • 国家税务总局党委委员名单
  • 企业所得税核定征收和查账征收的区别
  • 出租场地的税费
  • 税务师事务所企业组织架构
  • 深圳交警的微博
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设