位置: IT常识 - 正文

RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

编辑:rootadmin
RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline 目录RGB-T追踪算法简介HMFT图像互补信息融合【CIF】辨别力特征的信息融合【DFF】适应性决策融合【ADF】算法流程

推荐整理分享RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:rgbt跟踪,rgbquad,rgb(),rgb(),rgbquad,rgb(),rgbquad,rgbt跟踪,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇论文既提出了一个大规模的RGB-T追踪的数据集,也相应提出了一个Baseline,在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。 关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV

HMFT:论文 数据集

RGB-T追踪算法简介

通常RGB-T追踪器主要用了RGB追踪器相似的pipeline,然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为:图片融合、特征融合、决策融合三类。

【图片融合】:利用BackBone网络,以共享权重的方式学习可见光图片和热红外图片的图片特征,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。【特征融合】:大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合:1. 用一个模态作为辅助模态对另一个模态进行refine;2. 先直接把两个模态的特征拼接(通常按channel-wise),再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高,对图片的对齐要求不高。【决策融合】:每个模态独立输出对目标的估计,以response map的形式,然后再融合这两个模态的决策,输出一个final score。HMFT

这个模型就容纳了以上这三种融合方法。模型图如下,可以看到 HMFT 框架有两个分支:Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成:CIF / DFF / ADF。

Discriminative bransh 分支:Complementary bransh 分支 :图像互补信息融合【CIF】

这个模块的作用是学习两个模态中目标相关的一致性信息。

模块的输入:IvI_vIv​和ItI_tIt​分别表示RGB图片和Thermal图片。蓝色部分是提取互补信息的网络【Comp. Backbone】,即ResNet50,共享权重,提取共同的特征。这里的LdivL_{div}Ldiv​是KL-散度的Loss函数,作用是为了保持这两个模态的一致性,用KL散度约束特征的分布。所以在训练的时候,学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下: 其中PviP_v^iPvi​和PtiP_t^iPti​分别表示visible图片和thermal图片在ResNet50第iii层的特征。所以这是每层特征的KL散度之和求最小。输出是按channel-wise拼接起来的特征Pa∈R2C∗H∗WP_a \in \mathbb{R}^{2C*H*W}Pa​∈R2C∗H∗W,原本的特征维度为Pv/t∈RC∗H∗WP_{v/t} \in \mathbb{R}^{C*H*W}Pv/t​∈RC∗H∗W。辨别力特征的信息融合【DFF】RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

这个模块的作用是学习两个模态信息中不同的具有判别力的信息。RGB图像可以提供强大的外观信息;红外图像可以提供目标轮廓有关的信息。所以先单独对着两个模态建模,生成特征再融合。具体流程如下:

模型的输入:Backbone网络对两个模态独立输出特征FvF_vFv​、FtF_tFt​

蓝色框:将FvF_vFv​、FtF_tFt​通过对应元素相加(Elem.Sum)合起来,经过一个全局平均池化(GAP)和全连接层(FC)得到一个全局向量dgd_gdg​,包含了两个模态的信息。公式表达如下:这里DvD_vDv​、DtD_tDt​就是对应FvF_vFv​、FtF_tFt​,应该是笔误。

橙色框:利用两个独立的模态专属全连接层ϝv\digamma_vϝv​、ϝt\digamma_tϝt​+softmax操作生成模态专属的channel-wise的权重wvw_vwv​,wt∈RC∗1∗1w_t\in \mathbb{R}^{C*1*1}wt​∈RC∗1∗1。 #pic_center)

红色框:用计算出的权重wvw_vwv​,wtw_twt​用channel-wise乘法的方式与最初的模态特征FvF_vFv​、FtF_tFt​相乘,再相加。

模块的输出:融合后的特征DaiD_a^iDai​

适应性决策融合【ADF】

这个模块的作用是基于CIF、DFF 分支独立输出的特征图,计算这些特征图的置信度,根据置信度计算这些特征图的权重对特征图加权,再产生最终的特征图。

模块的输入:CIF、DFF 分支独立输出的特征图PaP_aPa​和DaD_aDa​。MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度McM_cMc​、MdM_dMd​。具体操作是:对于输入的特征XXX,也就是上面的PaP_aPa​和DaD_aDa​,先通过1*1的卷积降低特征维度(为了降低计算量),再经过Reshape操作,将XXX的shape从C×W×HC \times W \times HC×W×H变成C×WHC \times WHC×WH,作为自注意力机制中的特征嵌入,得到HW×CHW \times CHW×C的特征,再对channel加和再reshape得到H×W×1H \times W \times 1H×W×1的模型置信度。计算如下: 将McM_cMc​和MdM_dMd​ 拼接起来,输入到一个两层的Encoder-Decoder网络中,得到模态各自的权重Ec,Ed∈RH∗WE_c, E_d \in \mathbb{R}^{H*W}Ec​,Ed​∈RH∗W。这个权重对CIF、DFF 分支独立输出的响应图RcR_cRc​和RdR_dRd​作element-wise乘(加权操作)得到RFR_FRF​。 RF=Rd⊙Ed+Rc⊙EcR_F=R_d \odot E_d+R_c \odot E_cRF​=Rd​⊙Ed​+Rc​⊙Ec​算法流程

对于当前的追踪图片

两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图;利用ADF,对两个分支Discriminative branch和Complementary branch 的响应图进行融合,生成最终响应图;利用DiMP中IoU预测模块,对最终响应图中取10个proposal,再对proposal预测IoU分数,取分数最高的三个proposal作平均,输出最终的预测边界框。

QQQQQ QQ Q

本文链接地址:https://www.jiuchutong.com/zhishi/292356.html 转载请保留说明!

上一篇:如何实现chrome谷歌浏览器多开(独立环境 独立cookie)(chrome怎么用谷歌)

下一篇:农业病虫害数据集与算法——调研整理(2020年农业病虫害)

  • 180hz采样率是什么意思(180hz采样率和240hz采样率区别)

    180hz采样率是什么意思(180hz采样率和240hz采样率区别)

  • 腾讯课堂分屏情况下算时间吗(腾讯课堂分屏可以看到吗)

    腾讯课堂分屏情况下算时间吗(腾讯课堂分屏可以看到吗)

  • 酒店订单不可取消怎么办(酒店订单不可取消)

    酒店订单不可取消怎么办(酒店订单不可取消)

  • 华为手机怎么把密码去掉(华为手机怎么把时间放在桌面上)

    华为手机怎么把密码去掉(华为手机怎么把时间放在桌面上)

  • 无法连接版本服务器什么意思(无法连接版本服务器)

    无法连接版本服务器什么意思(无法连接版本服务器)

  • 红米k30怎么快速截屏(红米k30怎么快速分屏)

    红米k30怎么快速截屏(红米k30怎么快速分屏)

  • 手机克隆安全吗(荣耀手机克隆安全吗)

    手机克隆安全吗(荣耀手机克隆安全吗)

  • 苹果的云盘是开还是关(苹果云盘什么用)

    苹果的云盘是开还是关(苹果云盘什么用)

  • 微信关闭夜间模式在哪里(微信夜间模式怎么关闭?)

    微信关闭夜间模式在哪里(微信夜间模式怎么关闭?)

  • 转接头会影响音质吗(转接头会影响音响吗)

    转接头会影响音质吗(转接头会影响音响吗)

  • 苹果6为什么打不了电话(苹果6为什么打不开)

    苹果6为什么打不了电话(苹果6为什么打不开)

  • 微信群里照片多久过期(微信群照片多久过期看不到)

    微信群里照片多久过期(微信群照片多久过期看不到)

  • 机械键盘rgb什么意思(机械键盘rgb什么时候开)

    机械键盘rgb什么意思(机械键盘rgb什么时候开)

  • 华为nova5ipro充电时间(华为nova5ipro充电器参数)

    华为nova5ipro充电时间(华为nova5ipro充电器参数)

  • 华为的手机克隆怎么用(华为的手机克隆可以克隆苹果手机吗)

    华为的手机克隆怎么用(华为的手机克隆可以克隆苹果手机吗)

  • 表格里面怎么往下拉全部一模一样(表格里面怎么往右移动)

    表格里面怎么往下拉全部一模一样(表格里面怎么往右移动)

  • 144对显卡要求(144吃显卡吗)

    144对显卡要求(144吃显卡吗)

  • 苹果7p是不是高通基带(苹果7p算高端机吗)

    苹果7p是不是高通基带(苹果7p算高端机吗)

  • 算法的时间复杂度与什么有关(算法的时间复杂度取决于)

    算法的时间复杂度与什么有关(算法的时间复杂度取决于)

  • 南宁坐公交车可以二维码支付么(南宁坐公交车可以扫微信吗)

    南宁坐公交车可以二维码支付么(南宁坐公交车可以扫微信吗)

  • 微信发什么对方收不到(微信发什么对方必看)

    微信发什么对方收不到(微信发什么对方必看)

  • vivo文件夹在哪里打开(vivo 文件夹)

    vivo文件夹在哪里打开(vivo 文件夹)

  • 通过微信名称能够查到微信号吗(通过微信名称能起诉对方吗)

    通过微信名称能够查到微信号吗(通过微信名称能起诉对方吗)

  • 12+ .tar 压缩和解压文件命令的用法记录(tar压缩解压缩命令)

    12+ .tar 压缩和解压文件命令的用法记录(tar压缩解压缩命令)

  • lslogins命令  显示系统中现有用户的相关信息(ls -lh命令)

    lslogins命令 显示系统中现有用户的相关信息(ls -lh命令)

  • 本期实际抵减税额合计0.00不等于
  • 商品房销售税率10%执行时间
  • 水电费收据可以税前扣除吗
  • 个纳税人申报
  • 整形医院有收费标准么
  • 多开票要交多少税
  • 月中入职新公司社保谁交
  • 净资产账面价值怎么计算
  • 自来水开出发票的税率是多少
  • 季度申报残保金怎么填写
  • 汽车开公司发票可以抵税吗?
  • 预算管理如何做好管理会计这一工作
  • 建设工程项目融资
  • 汇兑损益在外币业务核算中有什么重要意义
  • 采购折扣怎么结转成本?
  • 营业执照上能看出来是一般纳税人
  • 餐饮费发票税率是多少
  • 财库联网集中户扣了我的钱
  • 公车私用情形有哪些
  • 商票背书需要对方开发票吗
  • 个税系统数据没有备份怎么办
  • 小规模未开票收入如何申报增值税
  • 多缴税款能否跨年抵扣
  • 退票费报销凭证可以在机子上打印吗
  • 工会经费由企业和职工共同负担吗
  • 年折旧率怎么计算折旧几年
  • 培训机构开办资金
  • 公司转账到支付宝有记录么
  • 公司收到个人入股股金,然后又投资其他公司怎么做账
  • php imagecreatetruecolor 创建高清和透明图片代码小结
  • 电脑网络提示ip地址错误怎么办
  • ant design vue vue3
  • 公司法人变更账户没有改有影响吗
  • 建设期需要流动资金吗
  • 萨勒克国家公园课文
  • 企业所得税核定征收方法
  • 转销坏账准备的会计分录有一个还是两个
  • 财务费用为什么流向债权人
  • 纳税人填写纳税申报表
  • 未达到起征点的增值税怎么填写
  • phpcms模板制作教程
  • 处置固定资产账务处理进什么科目
  • centos7.1
  • access数据库干嘛的
  • 帝国cms使用redis
  • 进项税需要转出的分录
  • 小规模纳税人开具增值税专用发票
  • 小规模纳税人是简易计税还是一般计税
  • 短期借款利息怎么做账
  • 存货在报表里是如何体现的
  • 政府部门城投公司融资安全吗
  • 银行收到一笔款项企业尚未入账属于什么情况的未达账项
  • 限定性净资产的例子有哪些
  • 企业向员工收取费用
  • 管理费用属于什么成本
  • 请问,制造企业有哪些?
  • mysql数据库如何使用
  • SQL语句查询数据量
  • win8 系统设置
  • 微软公布新企业AI产品定价 股价应声涨至盘中纪录高位
  • 使用命令行 -devmode
  • linux查看当前时间戳
  • win7系统蓝牙搜索不到设备
  • win8系统设置锁屏密码
  • linux怎么查看
  • win8操作中心怎么关闭
  • win7系统电脑开机黑屏
  • WIN10系统中断
  • win7旗舰版系统激活密钥
  • python 先序遍历
  • javascript延迟执行
  • unity区域光怎么做
  • 正途科技有限公司
  • 事件委托jq
  • 详解中国女足出线形势
  • python的介绍
  • 税务局上下班路上能穿制服吗
  • 四川医保网上怎么缴费支付宝
  • 教师十三薪是什么意思
  • 税控盘操作指南
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设