位置: IT常识 - 正文

卷,卷,卷,SAM发布不到24h | BAAI、浙大、北大联合推出SegGPT(卷卷卷卷卷)

编辑:rootadmin
卷,卷,卷,SAM发布不到24h | BAAI、浙大、北大联合推出SegGPT

推荐整理分享卷,卷,卷,SAM发布不到24h | BAAI、浙大、北大联合推出SegGPT(卷卷卷卷卷),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:卷卷zoe,卷,卷,卷,全国汽车白菜价,超30家品牌最高降16万,卷卷卷卷卷,卷卷zoe,卷卷的是什么意思,卷卷的卷,卷卷的卷,卷卷的卷,内容如对您有帮助,希望把文章链接给更多的朋友!

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

昨天都被Meta的SAM模型刷屏了吧!但在其发布24h不到!

北京智源人工智能研究院联合浙大、北大发布SegGPT: Segmenting Everything In Context。让我们来一探究竟。

我们提出了SegGPT,这是一个通用模型,可以在上下文中分段任何东西。我们将各种分割任务统一到一个通用的上下文学习框架中,通过将它们转换为图像的相同格式来适应不同种类的分割数据。SegGPT的训练被公式化为一个具有随机颜色映射的上下文着色问题,目标是根据上下文完成不同的任务,而不是依赖于特定的颜色。训练后,SegGPT可以通过上下文推理在图像或视频中执行任意的分割任务,例如对象实例、杂项、零件、轮廓和文本。SegGPT在广泛的任务中进行评估,包括少量语义分割、视频对象分割、语义分割和全景分割。我们的结果表明,在领域内和领域外目标的分割方面,无论是质量还是数量,都具有强大的能力。

项目代码:https://github.com/baaivision/Painter

1.研究背景与动机:

传统的基于规则和基于图像特征的方法需要手动设计特征或规则,而深度学习方法通常需要大量标注数据来训练模型。此外,现有方法通常只能处理特定类型的分割任务,难以适应不同类型的数据。因此,本文旨在提出一种通用的图像分割模型,可以自动适应不同类型的数据,并且无需大量标注数据即可进行训练。同时,本文还希望通过使用自然语言处理技术来解决图像分割任务中存在的挑战,并提高模型性能。

2.贡献

本文的主要贡献如下:

提出了一种通用的图像分割模型SegGPT,它使用基于自然语言处理的生成式预训练模型GPT-3,并将其应用于图像分割任务中。SegGPT模型采用上下文学习框架来统一各种分割任务,并使用随机颜色映射来训练模型。

卷,卷,卷,SAM发布不到24h | BAAI、浙大、北大联合推出SegGPT(卷卷卷卷卷)

引入了上下文集成策略和In-Context Tuning方法来提高模型性能。上下文集成策略利用多个上下文信息来增强模型的表征能力,而In-Context Tuning方法则通过微调预训练模型来适应特定任务。

对SegGPT进行了广泛评估,使用多个数据集进行实验,包括ADE20K、COCO-Stuff、PASCAL VOC 2012、Cityscapes等。实验结果表明,SegGPT在各种分割任务上都取得了优秀的性能,并且在少样本学习和视频对象分割等任务上表现出色。

3.方法3.1 In-Context Coloring

In-Context Coloring是SegGPT模型中的一种方法,用于训练模型以执行多种分割任务。传统的Painter框架中,每个任务的颜色空间都是预定义的,这导致解决方案崩溃成为多任务学习。例如,在语义分割中,一组颜色被预定义,并且每个语义类别被分配一个固定的颜色。同样,在实例分割中,实例对象的颜色根据其位置类别进行分配,即颜色数量等于空间位置数量,从而导致模型崩溃。为了解决这个问题,SegGPT使用In-Context Coloring方法来训练模型。该方法使用随机颜色映射来完成不同的任务,并强制模型参考上下文信息来完成指定任务,而不是依赖特定的颜色。

3.3 Context Ensemble

Context Ensemble是本文提出的一种上下文集成策略,旨在利用多个上下文信息来增强模型的表征能力。具体而言,Context Ensemble包括两个部分:空间集成和特征集成。空间集成通过将不同尺度的特征图进行融合来捕捉不同尺度的上下文信息。特征集成则通过将不同层次的特征进行融合来捕捉不同层次的上下文信息。这两种集成方法可以相互结合,以进一步提高模型性能。在实验中,本文使用了ADE20K数据集进行评估,并比较了使用Context Ensemble和不使用Context Ensemble两种方法的性能差异。实验结果表明,使用Context Ensemble可以显著提高模型性能,在各种分割任务上都取得了优秀的结果。因此,Context Ensemble是一种有效的上下文集成策略,可以帮助模型更好地利用上下文信息,并提高图像分割任务的性能。

3.3 In-Context Tuning

In-Context Tuning是SegGPT模型中的一种方法,用于调整模型以适应特定的任务或数据集。该方法使用可学习的提示来指示不同的任务,并且可以方便地作为专家模型,在不更新模型参数的情况下通过调整特定提示来适应特定用例。具体而言,该方法将任务提示定义为可学习张量,冻结整个模型,然后使用相同的训练损失来优化任务提示。本文在挑战性的ADE20K语义分割和COCO全景分割数据集上进行了In-Context Tuning实验,并证明了该方法对于提高SegGPT模型性能的重要性。

4.Experiment

在Experiment部分,本文介绍了对SegGPT模型的广泛评估。具体而言,本文使用了多个数据集进行实验,包括ADE20K、COCO-Stuff、PASCAL VOC 2012、Cityscapes等。实验结果表明,SegGPT在各种分割任务上都取得了优秀的性能,并且在少样本学习和视频对象分割等任务上表现出色。此外,本文还比较了SegGPT和其他先进方法的性能,并证明了SegGPT的优越性。

4.1 One-Shot Training Details

本文使用了一种名为Vision Transformer (ViT-L) encoder的编码器,并使用了一个预训练模型作为初始权重。然后,将多个数据集混合在一起进行训练,以使模型能够适应不同类型的数据。在测试时,只需要对模型进行微调即可适应特定任务。 本文还提到了一些具体的实现细节,如使用随机颜色映射来训练模型、使用多尺度输入图像来增强模型的鲁棒性等。实验结果表明,One-Shot Training Details方法可以有效地提高模型性能,在各种分割任务上都取得了优秀的结果。因此,One-Shot Training Details是一种有效的训练方法,可以帮助模型更好地适应不同类型的数据,并提高图像分割任务的性能。

4.1 Qualitative Results

本文使用了一些特定的任务提示来对选定的图像进行分割,并将结果可视化展示出来。这些任务提示包括任意部分/对象分割、文本分割、视频对象分割等。此外,本文还使用了YouTube-VOS 2018数据集进行视频对象分割实验,并将结果可视化展示出来。通过这些可视化结果,可以看出SegGPT模型在各种分割任务上都取得了优秀的性能,并且具有很高的灵活性和适应性。因此,Qualitative Results是一种有效的实验结果展示方式,可以帮助读者更好地理解SegGPT模型在图像分割任务中的表现。

4.3 Comparison with Specialist Methods

本文使用了两个few-shot semantic segmentation数据集进行评估,并将SegGPT模型与一些专业方法进行了比较。实验结果表明,SegGPT模型在这两个数据集上都取得了优秀的性能,并且在某些任务上甚至超越了一些专业方法。为了更好地比较不同方法之间的性能差异,本文还使用了一些评价指标,如mIoU、F1-score等。实验结果表明,在大多数情况下,SegGPT模型都可以达到或超过其他专业方法的性能水平。此外,本文还对不同方法之间的计算复杂度进行了比较,并发现SegGPT模型具有更低的计算复杂度和更高的效率。

4.4 Ablation Study

本文分别消融了空间集成和特征集成两种策略,并对实验结果进行了比较。实验结果表明,这两种上下文集成策略都对模型的性能有着重要的影响。在空间集成方面,本文发现将不同位置的特征进行平均池化可以有效地提高模型的性能。在特征集成方面,本文发现将不同层次的特征进行拼接可以有效地提高模型的性能。此外,本文还对不同消融组合进行了比较,并发现将这两种策略同时应用可以取得最好的效果。

5.Conclusion

在这项工作中,我们提出了一种通用的分割模型,展示了如何设计适当的训练策略,充分利用上下文视觉学习的灵活性。我们的模型表现出了处理领域内外分割任务的强大能力,包括对象实例、物体、部分、轮廓、文本分割等。然而,我们的工作也存在缺点。虽然我们的工作引入了一种新的随机着色机制,以提高上下文训练的泛化能力,但也使得训练任务本质上更加困难,这可能是在具有丰富训练数据的领域内任务中表现较差的原因,例如ADE20K上的语义分割和COCO上的全景分割。展望未来,我们认为我们的方法有潜力成为在图像/视频分割中实现更多样化应用的强大工具,通过利用任务定义中的灵活性进行上下文推断。扩大模型规模是我们计划追求的一条途径,以进一步提高性能。更大的模型可以捕捉到数据中更复杂的模式,这可能会导致更好的分割结果。但这也带来了寻找更多数据的挑战。一个潜在的解决方案是探索自监督学习技术。我们希望我们的研究能够激发社区继续探索上下文学习在计算机视觉中的潜力。我们仍然乐观地认为,视觉领域最好的GPT-3时刻还在未来。

本文链接地址:https://www.jiuchutong.com/zhishi/299404.html 转载请保留说明!

上一篇:Vue-watch 侦听对象属性(vue的watch监听props)

下一篇:〖大前端 - 基础入门三大核心之CSS篇㉔〗- 动画效果与实战小案例(大前端最新)

  • 小米手机按键设置在哪里(小米手机按键设置功能怎么查)

    小米手机按键设置在哪里(小米手机按键设置功能怎么查)

  • 芒果会员赠片资格怎么用(芒果会员赠片资格怎么弄)

    芒果会员赠片资格怎么用(芒果会员赠片资格怎么弄)

  • 手机后面的磁力贴怎么取下来(手机后面的磁力贴怎么贴)

    手机后面的磁力贴怎么取下来(手机后面的磁力贴怎么贴)

  • 苹果手机软件打不开就闪退(苹果手机软件打不开)

    苹果手机软件打不开就闪退(苹果手机软件打不开)

  • 华为p40pro支持无线充电功能吗(华为p40pro支持无线磁吸充电吗)

    华为p40pro支持无线充电功能吗(华为p40pro支持无线磁吸充电吗)

  • 电脑用着突然断电重启(电脑用着突然断网重启后又可以了)

    电脑用着突然断电重启(电脑用着突然断网重启后又可以了)

  • 帧中继网是一种什么网(帧中继网是一种广域网)

    帧中继网是一种什么网(帧中继网是一种广域网)

  • vivox7有没有红外线功能(vivox7plus红外线功能)

    vivox7有没有红外线功能(vivox7plus红外线功能)

  • 华为手机内部存储哪些可以删除(华为手机内部存储照片在哪里)

    华为手机内部存储哪些可以删除(华为手机内部存储照片在哪里)

  • 您拨打的用户忙请稍后再拨什么意思(打电话语音说您拨打的用户忙)

    您拨打的用户忙请稍后再拨什么意思(打电话语音说您拨打的用户忙)

  • 20千瓦用多大漏电保护器(20千瓦要用多大的漏电开关)

    20千瓦用多大漏电保护器(20千瓦要用多大的漏电开关)

  • freebuds3一边耳机失效(freebuds3一边耳机声音小)

    freebuds3一边耳机失效(freebuds3一边耳机声音小)

  • 手机进水用大米能吸水么?(手机进水用大米吸水几个小时)

    手机进水用大米能吸水么?(手机进水用大米吸水几个小时)

  • 红米k20pro打电话黑屏(红米k20pro打电话不能上网)

    红米k20pro打电话黑屏(红米k20pro打电话不能上网)

  • nova5可以分屏吗(华为nova5能分屏吗)

    nova5可以分屏吗(华为nova5能分屏吗)

  • 微信正在输入什么情况(微信正在输入什么情况下才会出现)

    微信正在输入什么情况(微信正在输入什么情况下才会出现)

  • 高德地图如何复制具体地址(高德地图如何复制路线)

    高德地图如何复制具体地址(高德地图如何复制路线)

  • 电脑微信版本低怎么升级(电脑微信版本低如何升级更新)

    电脑微信版本低怎么升级(电脑微信版本低如何升级更新)

  • 苹果蓝牙耳机二代怎么充电(苹果蓝牙耳机二代和三代哪个好用)

    苹果蓝牙耳机二代怎么充电(苹果蓝牙耳机二代和三代哪个好用)

  • k20有dc调光吗(k20pro有dc)

    k20有dc调光吗(k20pro有dc)

  • vivox9如何格式化(vivox9手机怎么格式化)

    vivox9如何格式化(vivox9手机怎么格式化)

  • pathon是什么

    pathon是什么

  • 怎样删除qq自动回复的内容(怎样删除qq自动登录的账号密码)

    怎样删除qq自动回复的内容(怎样删除qq自动登录的账号密码)

  • 苹果x怎么清后台

    苹果x怎么清后台

  • type c和安卓接口区别(type c和安卓接口通用吗)

    type c和安卓接口区别(type c和安卓接口通用吗)

  • YOLOV5网络结构设计的思考(yolov1网络结构图详解)

    YOLOV5网络结构设计的思考(yolov1网络结构图详解)

  • 挪威苔原上的北极光和野生驯鹿 (© Anton Petrus/Getty Images)(挪威最北部)

    挪威苔原上的北极光和野生驯鹿 (© Anton Petrus/Getty Images)(挪威最北部)

  • 无法收回的应收账款可以税前扣除吗
  • 工商年报多久能显示
  • 电信要收取安装费吗
  • 交房前是否需要给房产局交房租维修费
  • 通信服务费包括哪些
  • 没开发票可以确认收入吗?
  • 无形资产的累计摊销是什么意思
  • 服务业预收款项怎么确认收入
  • 纯外贸企业进项要转出吗为啥
  • 对方公司不能开发票怎么办
  • 公司向员工个人借款
  • 慈善会可以开什么票据
  • 三证合一后有效期多久
  • 什么情形下可以认定为重婚
  • 企业所得税审计的内容包括哪四个方面
  • 可以选择用简易计算办法计税的是哪些
  • 高新技术企业怎么申报企业所得税
  • 安装设备用的材料计入什么科目
  • 农产品增值税核定扣除办法
  • 耕地占用税计入无形资产吗
  • 怎么计算附加税税率
  • 非关联企业无偿拆借资金企业所得税
  • 进货折让会计分录
  • 使用U盘安装win7出现找不到任何设备驱动程序
  • 证券权益包括哪些内容
  • 几个项目可以合到一起招标吗
  • PHP:session_id()的用法_Session函数
  • windows7简洁版
  • 辅助生产成本是
  • 解决安装后软件icon一圈白边问题
  • 莫尼莫克房车
  • yii框架安装
  • easyui表格分页
  • ml神经网络
  • audit install success
  • vue中动态添加表格
  • 退诉讼费计入什么科目
  • mysql 触发器
  • 印花税计入管理费用还是税金
  • 房产税的计算器
  • 企业中间投入
  • 建筑服务包括哪些内容
  • 会计报表作用 镜
  • 房屋如何计提折旧费
  • 未使用固定资产有哪些
  • 费用报销的凭证是什么
  • 免抵退的定义
  • 装修费用税法规定有哪些
  • 党委经费是国家政府出吗?
  • 公司往来借款怎么做账
  • 亏损太多账务如何处理
  • mysql Sort aborted: Out of sort memory, consider increasing server sort buffer size的解决方法
  • mysql5.7.31安装配置教程
  • 安装centos6.10
  • vidaa 破解
  • windows vista可以换7吗
  • 任务管理器边框怎么设置
  • win7系统扫描在哪里
  • 怎么把html转换成psd
  • potplayer win7
  • windows8中“同步你的设置”使用介绍(让你的设置自动同步)
  • RegSrvc.exe - RegSrvc是什么进程 有什么用
  • win7安装cad2010
  • win 7怎么设置开机启动
  • linux 清除垃圾
  • Cocos2d-x 3.0final 终结者系列教程23CocosStudio UI组件使用大全Cocos2d-x3.2使用
  • cocos2d getPosition()取不到实际坐标问题
  • opengl画实体
  • javascript折叠菜单
  • Centos7 中 Node.js安装简单方法
  • 怎么用python画图具体步骤
  • JavaScript html5 canvas绘制时钟效果(二)
  • js selectionchange
  • JavaScript中Number.NEGATIVE_INFINITY值的使用详解
  • 如何使用jquery
  • centos python2.7升级到3.7
  • 广东省地税局局长 吴
  • 年终奖发4万扣多少税
  • 转卖车位土地增值税税率
  • 加工修理修配税率是多少
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设