位置: IT常识 - 正文

RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

编辑:rootadmin
RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline 目录RGB-T追踪算法简介HMFT图像互补信息融合【CIF】辨别力特征的信息融合【DFF】适应性决策融合【ADF】算法流程

推荐整理分享RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:rgbt跟踪,rgbquad,rgb(),rgb(),rgbquad,rgb(),rgbquad,rgbt跟踪,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇论文既提出了一个大规模的RGB-T追踪的数据集,也相应提出了一个Baseline,在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。 关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV

HMFT:论文 数据集

RGB-T追踪算法简介

通常RGB-T追踪器主要用了RGB追踪器相似的pipeline,然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为:图片融合、特征融合、决策融合三类。

【图片融合】:利用BackBone网络,以共享权重的方式学习可见光图片和热红外图片的图片特征,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。【特征融合】:大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合:1. 用一个模态作为辅助模态对另一个模态进行refine;2. 先直接把两个模态的特征拼接(通常按channel-wise),再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高,对图片的对齐要求不高。【决策融合】:每个模态独立输出对目标的估计,以response map的形式,然后再融合这两个模态的决策,输出一个final score。HMFT

这个模型就容纳了以上这三种融合方法。模型图如下,可以看到 HMFT 框架有两个分支:Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成:CIF / DFF / ADF。

Discriminative bransh 分支:Complementary bransh 分支 :图像互补信息融合【CIF】

这个模块的作用是学习两个模态中目标相关的一致性信息。

模块的输入:IvI_vIv​和ItI_tIt​分别表示RGB图片和Thermal图片。蓝色部分是提取互补信息的网络【Comp. Backbone】,即ResNet50,共享权重,提取共同的特征。这里的LdivL_{div}Ldiv​是KL-散度的Loss函数,作用是为了保持这两个模态的一致性,用KL散度约束特征的分布。所以在训练的时候,学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下: 其中PviP_v^iPvi​和PtiP_t^iPti​分别表示visible图片和thermal图片在ResNet50第iii层的特征。所以这是每层特征的KL散度之和求最小。输出是按channel-wise拼接起来的特征Pa∈R2C∗H∗WP_a \in \mathbb{R}^{2C*H*W}Pa​∈R2C∗H∗W,原本的特征维度为Pv/t∈RC∗H∗WP_{v/t} \in \mathbb{R}^{C*H*W}Pv/t​∈RC∗H∗W。辨别力特征的信息融合【DFF】RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

这个模块的作用是学习两个模态信息中不同的具有判别力的信息。RGB图像可以提供强大的外观信息;红外图像可以提供目标轮廓有关的信息。所以先单独对着两个模态建模,生成特征再融合。具体流程如下:

模型的输入:Backbone网络对两个模态独立输出特征FvF_vFv​、FtF_tFt​

蓝色框:将FvF_vFv​、FtF_tFt​通过对应元素相加(Elem.Sum)合起来,经过一个全局平均池化(GAP)和全连接层(FC)得到一个全局向量dgd_gdg​,包含了两个模态的信息。公式表达如下:这里DvD_vDv​、DtD_tDt​就是对应FvF_vFv​、FtF_tFt​,应该是笔误。

橙色框:利用两个独立的模态专属全连接层ϝv\digamma_vϝv​、ϝt\digamma_tϝt​+softmax操作生成模态专属的channel-wise的权重wvw_vwv​,wt∈RC∗1∗1w_t\in \mathbb{R}^{C*1*1}wt​∈RC∗1∗1。 #pic_center)

红色框:用计算出的权重wvw_vwv​,wtw_twt​用channel-wise乘法的方式与最初的模态特征FvF_vFv​、FtF_tFt​相乘,再相加。

模块的输出:融合后的特征DaiD_a^iDai​

适应性决策融合【ADF】

这个模块的作用是基于CIF、DFF 分支独立输出的特征图,计算这些特征图的置信度,根据置信度计算这些特征图的权重对特征图加权,再产生最终的特征图。

模块的输入:CIF、DFF 分支独立输出的特征图PaP_aPa​和DaD_aDa​。MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度McM_cMc​、MdM_dMd​。具体操作是:对于输入的特征XXX,也就是上面的PaP_aPa​和DaD_aDa​,先通过1*1的卷积降低特征维度(为了降低计算量),再经过Reshape操作,将XXX的shape从C×W×HC \times W \times HC×W×H变成C×WHC \times WHC×WH,作为自注意力机制中的特征嵌入,得到HW×CHW \times CHW×C的特征,再对channel加和再reshape得到H×W×1H \times W \times 1H×W×1的模型置信度。计算如下: 将McM_cMc​和MdM_dMd​ 拼接起来,输入到一个两层的Encoder-Decoder网络中,得到模态各自的权重Ec,Ed∈RH∗WE_c, E_d \in \mathbb{R}^{H*W}Ec​,Ed​∈RH∗W。这个权重对CIF、DFF 分支独立输出的响应图RcR_cRc​和RdR_dRd​作element-wise乘(加权操作)得到RFR_FRF​。 RF=Rd⊙Ed+Rc⊙EcR_F=R_d \odot E_d+R_c \odot E_cRF​=Rd​⊙Ed​+Rc​⊙Ec​算法流程

对于当前的追踪图片

两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图;利用ADF,对两个分支Discriminative branch和Complementary branch 的响应图进行融合,生成最终响应图;利用DiMP中IoU预测模块,对最终响应图中取10个proposal,再对proposal预测IoU分数,取分数最高的三个proposal作平均,输出最终的预测边界框。

QQQQQ QQ Q

本文链接地址:https://www.jiuchutong.com/zhishi/292356.html 转载请保留说明!

上一篇:如何实现chrome谷歌浏览器多开(独立环境 独立cookie)(chrome怎么用谷歌)

下一篇:农业病虫害数据集与算法——调研整理(2020年农业病虫害)

  • 华为手表能连接小米手机吗(华为手表能连接荣耀手机吗)

    华为手表能连接小米手机吗(华为手表能连接荣耀手机吗)

  • 怎么让网络E变回4G(怎么让网络变得更强)

    怎么让网络E变回4G(怎么让网络变得更强)

  • 原彩显示有什么用(原彩显示有什么特点)

    原彩显示有什么用(原彩显示有什么特点)

  • 查植物怎么扫一扫(植物识别扫一扫怎么操作)

    查植物怎么扫一扫(植物识别扫一扫怎么操作)

  • 腾讯视频会员怎么给别人用(腾讯视频会员怎么分享给别人)

    腾讯视频会员怎么给别人用(腾讯视频会员怎么分享给别人)

  • 话费可以转给别人吗(话费转给别人步骤)

    话费可以转给别人吗(话费转给别人步骤)

  • 电脑鼠标点不动东西怎么办(电脑鼠标点不动图标是怎么回事)

    电脑鼠标点不动东西怎么办(电脑鼠标点不动图标是怎么回事)

  • 芒果tv有学生会员吗(芒果tv有学生会员么)

    芒果tv有学生会员吗(芒果tv有学生会员么)

  • 贴吧怎么关闭地址显示(贴吧怎么关闭地区显示)

    贴吧怎么关闭地址显示(贴吧怎么关闭地区显示)

  • 电费异常(电费异常可以报警吗)

    电费异常(电费异常可以报警吗)

  • 抖音两个号可以发同一个视频吗(抖音两个号可以合并么)

    抖音两个号可以发同一个视频吗(抖音两个号可以合并么)

  • 路由器的账号是什么(路由器的账号是手机号吗)

    路由器的账号是什么(路由器的账号是手机号吗)

  • iphone11辅助触控打开没有小圆点(iphone11辅助触控怎么设置返回上一层)

    iphone11辅助触控打开没有小圆点(iphone11辅助触控怎么设置返回上一层)

  • 腾讯会议为什么黑屏(腾讯会议为什么不能共享屏幕)

    腾讯会议为什么黑屏(腾讯会议为什么不能共享屏幕)

  • 没开启拼小圈别人能看到吗(没有开启拼小圈会显示好友买过吗)

    没开启拼小圈别人能看到吗(没有开启拼小圈会显示好友买过吗)

  • iphone屏幕突然变暗调不亮(iphone屏幕突然变大怎么办)

    iphone屏幕突然变暗调不亮(iphone屏幕突然变大怎么办)

  • 滴滴定位服务已关闭是什么意思(滴滴一直显示定位服务未开启)

    滴滴定位服务已关闭是什么意思(滴滴一直显示定位服务未开启)

  • 爱奇艺会员可以下载视频吗(爱奇艺会员可以几个人一起登录)

    爱奇艺会员可以下载视频吗(爱奇艺会员可以几个人一起登录)

  • 手机暂停服务啥意思(手机暂停服务啥原因)

    手机暂停服务啥意思(手机暂停服务啥原因)

  • 手机营业厅怎么退订业务(手机营业厅怎么取消套餐)

    手机营业厅怎么退订业务(手机营业厅怎么取消套餐)

  • vivos5怎么打开相机网格(vivo手机怎么打开相机)

    vivos5怎么打开相机网格(vivo手机怎么打开相机)

  • 嘀嗒永久封号能解吗(嘀嗒被永久封禁咋整)

    嘀嗒永久封号能解吗(嘀嗒被永久封禁咋整)

  • 脚注编号21怎么加圆圈(脚注编号怎么加圆圈)

    脚注编号21怎么加圆圈(脚注编号怎么加圆圈)

  • 华为荣耀v30啥时候上市(华为荣耀V30啥时候上市的)

    华为荣耀v30啥时候上市(华为荣耀V30啥时候上市的)

  • 微信分身和微信的区别(微信分身和微信双开是什么意思)

    微信分身和微信的区别(微信分身和微信双开是什么意思)

  • 微信打什么字有特效(微信打什么字有兔子)

    微信打什么字有特效(微信打什么字有兔子)

  • 苹果8p怎么设置微信密码锁(苹果8p怎么设置应用锁)

    苹果8p怎么设置微信密码锁(苹果8p怎么设置应用锁)

  • Win11系统更新卡在100%怎么办 win11更新卡住的解决方法(win11系统更新卡在25%)

    Win11系统更新卡在100%怎么办 win11更新卡住的解决方法(win11系统更新卡在25%)

  • 为dedecms织梦模板发布文章添加禁用词语过滤功能(织梦使用教程)

    为dedecms织梦模板发布文章添加禁用词语过滤功能(织梦使用教程)

  • 建筑劳务公司怎么做账
  • 发票冲红重开,重开时是按新税率还是旧税率
  • 增值税普通发票需要交税吗
  • 补贴收入属于什么分配
  • 收付转记账凭证图片
  • 生活服务费发票 经营范围
  • 成品油购进数据未同步怎么办
  • 代扣代缴个税返点怎么申请
  • 小规模纳税人开了3%的专票还能享受1%
  • 企业所得税年报补报
  • 建筑施工企业工伤保险费率
  • 客户退回发票会退回吗
  • 行政单位无法支付怎么办
  • 清包工简易征收文件
  • 发票开错地方教育费附加多交了可以冲掉吗?
  • 为什么算除税价不算税金
  • 跨月冲红的发票怎么做账
  • 旧设备出口要交增值税吗
  • 全资子公司向母公司提供劳务服务怎么做账
  • 文化交流活动开展方案
  • win10电脑和win7电脑怎么共享文件
  • 收到押金缴国库费怎么办
  • php自学
  • 汇付的注意事项有哪些内容
  • PHP:pg_num_rows()的用法_PostgreSQL函数
  • 营改增项目
  • 超过两年的发票还可以查询吗
  • 政策性搬迁条件
  • 限售股交易征税是多少
  • 转入固定资产清理会计科目
  • h5移动端网页设计
  • vue $函数
  • 委托加工物资如何做账
  • 或有资产确认的前提为什么是
  • 年度报表资产总额平均值怎么算
  • 利润表年报本期金额填什么
  • 印花税需要扣除负数发票吗
  • 当月银行账可以下个月做吗
  • 累计折旧是当月提还是下月提
  • wordpress图片大小设置
  • 法人如何提取公积金
  • 未开票收入是怎么算的
  • MySQL创建数据库语句
  • sql查询出各科成绩单
  • mysql数据库操作中,use是用来做什么的?
  • 中小企业财务核算的重要性
  • 购车贷款分期利率
  • 固定资产改造的配件怎么入账
  • 计提环保税的会计分录
  • 对于相关人员培训存在的问题
  • 收到专利权投资的票据
  • 承兑汇票的贴现利息
  • 以前年度不合规发票如何调年报
  • 有限合伙企业的特征
  • 税务开票系统如何设置不用重复登录
  • 销售返利的会计处理方法
  • 事业单位的在建工程包括
  • 人力资源公司的进项票有哪些
  • 企业其他应付款增加的原因
  • 企业的管理人员应该是互补型
  • 总账的建立分为哪几个步骤
  • mysql数据库类型有哪些?如何选择合适的数据类型
  • centos还原
  • Vista下以真正的管理员登陆的设置方法
  • windows vista 版本
  • iis6配置网站
  • windows server 2008 硬盘格式
  • windows么
  • windows取消定时任务
  • 今日推送是什么
  • linux拉起进程
  • react-native fetch的具体使用方法
  • 微信小程序实现留言功能
  • 轻松掌握瓷砖铺贴技术 pdf
  • bat 批处理文件
  • 移动手机指令
  • python 基础 教程
  • 一般纳税人沙石税率是多少
  • 税务之星ii驱动
  • 贵州省税务局领导介绍
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设