位置: IT常识 - 正文

RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

编辑:rootadmin
RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline 目录RGB-T追踪算法简介HMFT图像互补信息融合【CIF】辨别力特征的信息融合【DFF】适应性决策融合【ADF】算法流程

推荐整理分享RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:rgbt跟踪,rgbquad,rgb(),rgb(),rgbquad,rgb(),rgbquad,rgbt跟踪,内容如对您有帮助,希望把文章链接给更多的朋友!

这篇论文既提出了一个大规模的RGB-T追踪的数据集,也相应提出了一个Baseline,在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。 关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV

HMFT:论文 数据集

RGB-T追踪算法简介

通常RGB-T追踪器主要用了RGB追踪器相似的pipeline,然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为:图片融合、特征融合、决策融合三类。

【图片融合】:利用BackBone网络,以共享权重的方式学习可见光图片和热红外图片的图片特征,并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。【特征融合】:大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合:1. 用一个模态作为辅助模态对另一个模态进行refine;2. 先直接把两个模态的特征拼接(通常按channel-wise),再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高,对图片的对齐要求不高。【决策融合】:每个模态独立输出对目标的估计,以response map的形式,然后再融合这两个模态的决策,输出一个final score。HMFT

这个模型就容纳了以上这三种融合方法。模型图如下,可以看到 HMFT 框架有两个分支:Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成:CIF / DFF / ADF。

Discriminative bransh 分支:Complementary bransh 分支 :图像互补信息融合【CIF】

这个模块的作用是学习两个模态中目标相关的一致性信息。

模块的输入:IvI_vIv​和ItI_tIt​分别表示RGB图片和Thermal图片。蓝色部分是提取互补信息的网络【Comp. Backbone】,即ResNet50,共享权重,提取共同的特征。这里的LdivL_{div}Ldiv​是KL-散度的Loss函数,作用是为了保持这两个模态的一致性,用KL散度约束特征的分布。所以在训练的时候,学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下: 其中PviP_v^iPvi​和PtiP_t^iPti​分别表示visible图片和thermal图片在ResNet50第iii层的特征。所以这是每层特征的KL散度之和求最小。输出是按channel-wise拼接起来的特征Pa∈R2C∗H∗WP_a \in \mathbb{R}^{2C*H*W}Pa​∈R2C∗H∗W,原本的特征维度为Pv/t∈RC∗H∗WP_{v/t} \in \mathbb{R}^{C*H*W}Pv/t​∈RC∗H∗W。辨别力特征的信息融合【DFF】RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

这个模块的作用是学习两个模态信息中不同的具有判别力的信息。RGB图像可以提供强大的外观信息;红外图像可以提供目标轮廓有关的信息。所以先单独对着两个模态建模,生成特征再融合。具体流程如下:

模型的输入:Backbone网络对两个模态独立输出特征FvF_vFv​、FtF_tFt​

蓝色框:将FvF_vFv​、FtF_tFt​通过对应元素相加(Elem.Sum)合起来,经过一个全局平均池化(GAP)和全连接层(FC)得到一个全局向量dgd_gdg​,包含了两个模态的信息。公式表达如下:这里DvD_vDv​、DtD_tDt​就是对应FvF_vFv​、FtF_tFt​,应该是笔误。

橙色框:利用两个独立的模态专属全连接层ϝv\digamma_vϝv​、ϝt\digamma_tϝt​+softmax操作生成模态专属的channel-wise的权重wvw_vwv​,wt∈RC∗1∗1w_t\in \mathbb{R}^{C*1*1}wt​∈RC∗1∗1。 #pic_center)

红色框:用计算出的权重wvw_vwv​,wtw_twt​用channel-wise乘法的方式与最初的模态特征FvF_vFv​、FtF_tFt​相乘,再相加。

模块的输出:融合后的特征DaiD_a^iDai​

适应性决策融合【ADF】

这个模块的作用是基于CIF、DFF 分支独立输出的特征图,计算这些特征图的置信度,根据置信度计算这些特征图的权重对特征图加权,再产生最终的特征图。

模块的输入:CIF、DFF 分支独立输出的特征图PaP_aPa​和DaD_aDa​。MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度McM_cMc​、MdM_dMd​。具体操作是:对于输入的特征XXX,也就是上面的PaP_aPa​和DaD_aDa​,先通过1*1的卷积降低特征维度(为了降低计算量),再经过Reshape操作,将XXX的shape从C×W×HC \times W \times HC×W×H变成C×WHC \times WHC×WH,作为自注意力机制中的特征嵌入,得到HW×CHW \times CHW×C的特征,再对channel加和再reshape得到H×W×1H \times W \times 1H×W×1的模型置信度。计算如下: 将McM_cMc​和MdM_dMd​ 拼接起来,输入到一个两层的Encoder-Decoder网络中,得到模态各自的权重Ec,Ed∈RH∗WE_c, E_d \in \mathbb{R}^{H*W}Ec​,Ed​∈RH∗W。这个权重对CIF、DFF 分支独立输出的响应图RcR_cRc​和RdR_dRd​作element-wise乘(加权操作)得到RFR_FRF​。 RF=Rd⊙Ed+Rc⊙EcR_F=R_d \odot E_d+R_c \odot E_cRF​=Rd​⊙Ed​+Rc​⊙Ec​算法流程

对于当前的追踪图片

两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图;利用ADF,对两个分支Discriminative branch和Complementary branch 的响应图进行融合,生成最终响应图;利用DiMP中IoU预测模块,对最终响应图中取10个proposal,再对proposal预测IoU分数,取分数最高的三个proposal作平均,输出最终的预测边界框。

QQQQQ QQ Q

本文链接地址:https://www.jiuchutong.com/zhishi/292356.html 转载请保留说明!

上一篇:如何实现chrome谷歌浏览器多开(独立环境 独立cookie)(chrome怎么用谷歌)

下一篇:农业病虫害数据集与算法——调研整理(2020年农业病虫害)

  • QQ为什么随心贴不显示(为什么qq随心贴有的人看不见)

    QQ为什么随心贴不显示(为什么qq随心贴有的人看不见)

  • 该商户仅支持150元以内的花呗订单(该商户仅支持150以内)

    该商户仅支持150元以内的花呗订单(该商户仅支持150以内)

  • 华为手机相册里的视频怎么加音乐(华为手机相册里的照片误删怎么恢复)

    华为手机相册里的视频怎么加音乐(华为手机相册里的照片误删怎么恢复)

  • 惠普envy和星系列区别(惠普星envy13,惠普星有啥区别)

    惠普envy和星系列区别(惠普星envy13,惠普星有啥区别)

  • 没有光猫只有路由器可以上网吗(没有光猫只有路由器可以看电视吗)

    没有光猫只有路由器可以上网吗(没有光猫只有路由器可以看电视吗)

  • pci设备是什么(pci设备有哪些)

    pci设备是什么(pci设备有哪些)

  • 手机停机还能接电话吗(手机开不了机怎么办)

    手机停机还能接电话吗(手机开不了机怎么办)

  • 全功能nfc和多功能nfc有什么区别(nfc多功能和全功能的区别)

    全功能nfc和多功能nfc有什么区别(nfc多功能和全功能的区别)

  • realmex出厂有贴膜吗(realmegtneo出厂自带贴膜吗)

    realmex出厂有贴膜吗(realmegtneo出厂自带贴膜吗)

  • soul阅后即焚怎么没了(soul阅完即焚)

    soul阅后即焚怎么没了(soul阅完即焚)

  • 笔记本键盘解锁(笔记本键盘解锁键)

    笔记本键盘解锁(笔记本键盘解锁键)

  • 网页认证的WiFi怎么连接(网页认证的WiFi怎么破解)

    网页认证的WiFi怎么连接(网页认证的WiFi怎么破解)

  • 华为mate30pro多大的屏幕(华为mate30pro多大像素)

    华为mate30pro多大的屏幕(华为mate30pro多大像素)

  • 手机号虚商什么意思(手机号虚商号可以用吗)

    手机号虚商什么意思(手机号虚商号可以用吗)

  • 华为P30pro锁屏步数如何关闭(华为p30pro锁屏步数怎么设置)

    华为P30pro锁屏步数如何关闭(华为p30pro锁屏步数怎么设置)

  • 手机wps怎么发送文件(手机wps怎么发送到微信)

    手机wps怎么发送文件(手机wps怎么发送到微信)

  • 优酷的会员中心在哪(优酷的会员中心怎么找到)

    优酷的会员中心在哪(优酷的会员中心怎么找到)

  • 企业店铺怎么申请(企业店铺怎么申请天猫店铺)

    企业店铺怎么申请(企业店铺怎么申请天猫店铺)

  • 苹果8p尺寸大小(苹果8p尺寸长度和宽度)

    苹果8p尺寸大小(苹果8p尺寸长度和宽度)

  • 钉钉怎么看什么时候入职(钉钉怎么看什么时候已读)

    钉钉怎么看什么时候入职(钉钉怎么看什么时候已读)

  • 海信电视浏览器在哪里(海信电视浏览器在什么地方下载)

    海信电视浏览器在哪里(海信电视浏览器在什么地方下载)

  • 陌陌现在怎么视频聊天(陌陌怎么视频聊天私聊)

    陌陌现在怎么视频聊天(陌陌怎么视频聊天私聊)

  • 搜狗怎样查找相似的图片(搜狗怎么找)

    搜狗怎样查找相似的图片(搜狗怎么找)

  • Windows系统怎么查看Linux子系统文件的位置?(怎么操作win10系统)

    Windows系统怎么查看Linux子系统文件的位置?(怎么操作win10系统)

  • vue3 如何实现 表格内容无缝滚动,我又写了一堆冗余代码(vue3怎么用)

    vue3 如何实现 表格内容无缝滚动,我又写了一堆冗余代码(vue3怎么用)

  • 织梦CMS地图sitemap.html更改路径和模板(织梦cms怎么样)

    织梦CMS地图sitemap.html更改路径和模板(织梦cms怎么样)

  • 退多缴纳的所得税 现金流如何处理
  • 进口增值税的税率
  • 简易计税方法使用范围
  • 企业怎么挑选计提折旧方式方法
  • 空白增值税专用发票丢失罚款
  • 企业的季度所得税怎么算
  • 预缴工程税的帐务处理如何做?
  • 政府制定优惠政策
  • 工资中的考核罚款会计怎么处理?
  • 行业协会需要办理税务登记证吗
  • 客户可以把现金存入对公户吗
  • 财产转让所得税计算方法
  • 代收水电费做错了该如何调账?
  • 对方公司不能开发票怎么办
  • 滞留票的原因是什么?
  • 税务局会限制每月交税吗
  • 商业保险可以报税吗
  • 报废固定资产增值税税率
  • 预售 首付
  • 购买标书的费用计入什么科目
  • 无偿获得固定资产的会计处理
  • 高温津贴的发放
  • 法院执行款可以开发票吗
  • 公共租赁住房的供应对象不包括
  • 进口报关单保费
  • 收到电子银行承兑汇票怎么做账务处理
  • 暂估入库发票回来怎么做账
  • 期末留抵税额退税额
  • winrar压缩后生成的文件格式
  • 苹果mac os x 10.7.5
  • macos big sur 电池
  • 企业收到款项
  • 蓝牙耳机连电脑
  • 建筑企业挂靠违法吗
  • 文竹发黄怎么挽救?
  • 暂估纳税调增了账务怎么处理
  • HTML怎么设置文本框
  • 数学建模赋权
  • 软考软件设计师考试时间
  • x-s和web_session
  • 收到政府扶持资金
  • 什么情况下应该辞职
  • 计提的费用收到增值税专票
  • 火车头 采集器
  • 允许从销项税额中扣除的有
  • 出口免税申报流程视频
  • 管理费用科目包括
  • 一般纳税人工程劳务发票税率是多少
  • 企业出售自用车辆的会计处理
  • 委外研发费用如何入账
  • 公司宿舍楼出租让我当甲方违法吗
  • 收据可以做收入吗?
  • 简易计税方法缴纳城建税和教育税
  • 用信用卡消费扣谁的手续费
  • 福利费可以不走应付职工薪酬吗
  • 固定资产折旧的会计科目
  • 建账的要点及应注意的问题
  • 简单介绍linux系统有哪些主要特点?
  • linux安装openssh-server
  • watchs2最新版本
  • win10光驱无法识别
  • 如何让计算机自动关机
  • os x 10.11 el capitan中文版上手体验评测
  • Linux /bin, /sbin, /usr/bin, /usr/sbin 区别
  • win10edge浏览器怎么设置兼容模式
  • win7系统aero主题变成黑色
  • win8谷歌浏览器出现无法访问此网站
  • Windows 7 Apache下计算机无法访问局域网网站的解决方法
  • bat怎么设置
  • unity assembly
  • 浅谈是什么意思
  • javascript基础笔记
  • 21个JavaScript事件(Events)属性汇总
  • 重庆电子税务局怎么开电子发票
  • 郑州市高新区税务局地址
  • 宁波增值税普通发票有几联发票
  • 税务局查帐流程
  • 税收优惠政策有哪些企业
  • 税控盘怎么看收入
  • 杭州文明城市几连冠
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设