位置: IT常识 - 正文

RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

编辑：rootadmin

RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline 目录RGB-T追踪算法简介HMFT图像互补信息融合【CIF】辨别力特征的信息融合【DFF】适应性决策融合【ADF】算法流程

推荐整理分享RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)，希望有所帮助，仅作参考，欢迎阅读内容。

文章相关热门搜索词:rgbt跟踪,rgbquad,rgb(),rgb(),rgbquad,rgb(),rgbquad,rgbt跟踪,内容如对您有帮助，希望把文章链接给更多的朋友！

这篇论文既提出了一个大规模的RGB-T追踪的数据集，也相应提出了一个Baseline，在现有多个数据集上 GTOT / RGB210 / RGB234 上获得了最好的性能。关于这篇论文中数据集相关的信息请见这篇博客RGB-T追踪——【数据集基准】GTOT / RGBT210 / RGBT234 / VOT-2019-2020 / LasHeR / VTUAV

HMFT：论文数据集

RGB-T追踪算法简介

通常RGB-T追踪器主要用了RGB追踪器相似的pipeline，然后聚焦于设计一个两模态融合方法。现有的融合方法主要分为：图片融合、特征融合、决策融合三类。

【图片融合】：利用BackBone网络，以共享权重的方式学习可见光图片和热红外图片的图片特征，并且学出来的这个共享权重相当于取了可见光图片和热红外图片中对定位目标有用的一致的信息。这种方法存在的缺陷是需要可见光图片和热红外图片高度对齐。【特征融合】：大多数Tracker是融合可见光图片和热红外图片的特征。这里也有两种融合：1. 用一个模态作为辅助模态对另一个模态进行refine；2. 先直接把两个模态的特征拼接（通常按channel-wise），再通过深度网络学习一个新的两个模态交互后的特征。这种方法的优点是灵活性高，对图片的对齐要求不高。【决策融合】：每个模态独立输出对目标的估计，以response map的形式，然后再融合这两个模态的决策，输出一个final score。HMFT

这个模型就容纳了以上这三种融合方法。模型图如下，可以看到 HMFT 框架有两个分支：Discriminative bransh 分支和Complementary bransh 分支。主要由3个主要模块组成：CIF / DFF / ADF。

Discriminative bransh 分支：Complementary bransh 分支：图像互补信息融合【CIF】

这个模块的作用是学习两个模态中目标相关的一致性信息。

模块的输入：IvI_vIv和ItI_tIt分别表示RGB图片和Thermal图片。蓝色部分是提取互补信息的网络【Comp. Backbone】，即ResNet50，共享权重，提取共同的特征。这里的LdivL_{div}Ldiv是KL-散度的Loss函数，作用是为了保持这两个模态的一致性，用KL散度约束特征的分布。所以在训练的时候，学习的目标函数就是使这两个backbone网络输出的特征尽可能相同。也相当于考虑了一致的信息。目标函数如下：其中PviP_v^iPvi和PtiP_t^iPti分别表示visible图片和thermal图片在ResNet50第iii层的特征。所以这是每层特征的KL散度之和求最小。输出是按channel-wise拼接起来的特征Pa∈R2C∗H∗WP_a \in \mathbb{R}^{2C*H*W}Pa∈R2C∗H∗W，原本的特征维度为Pv/t∈RC∗H∗WP_{v/t} \in \mathbb{R}^{C*H*W}Pv/t∈RC∗H∗W。辨别力特征的信息融合【DFF】 RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

RGB-T追踪——【多模态融合】Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline(rgbt目标跟踪)

这个模块的作用是学习两个模态信息中不同的具有判别力的信息。RGB图像可以提供强大的外观信息；红外图像可以提供目标轮廓有关的信息。所以先单独对着两个模态建模，生成特征再融合。具体流程如下：

模型的输入：Backbone网络对两个模态独立输出特征FvF_vFv、FtF_tFt

蓝色框：将FvF_vFv、FtF_tFt通过对应元素相加（Elem.Sum）合起来，经过一个全局平均池化（GAP）和全连接层（FC）得到一个全局向量dgd_gdg，包含了两个模态的信息。公式表达如下：这里DvD_vDv、DtD_tDt就是对应FvF_vFv、FtF_tFt，应该是笔误。

橙色框：利用两个独立的模态专属全连接层ϝv\digamma_vϝv、ϝt\digamma_tϝt+softmax操作生成模态专属的channel-wise的权重wvw_vwv,wt∈RC∗1∗1w_t\in \mathbb{R}^{C*1*1}wt∈RC∗1∗1。 #pic_center)

红色框：用计算出的权重wvw_vwv,wtw_twt用channel-wise乘法的方式与最初的模态特征FvF_vFv、FtF_tFt相乘，再相加。

模块的输出：融合后的特征DaiD_a^iDai

适应性决策融合【ADF】

这个模块的作用是基于CIF、DFF 分支独立输出的特征图，计算这些特征图的置信度，根据置信度计算这些特征图的权重对特征图加权，再产生最终的特征图。

模块的输入：CIF、DFF 分支独立输出的特征图PaP_aPa和DaD_aDa。MAM 模块的作用是基于自注意力机制分别获取一致性分支和判别力分支置信度McM_cMc、MdM_dMd。具体操作是：对于输入的特征XXX，也就是上面的PaP_aPa和DaD_aDa，先通过1*1的卷积降低特征维度（为了降低计算量），再经过Reshape操作，将XXX的shape从C×W×HC \times W \times HC×W×H变成C×WHC \times WHC×WH，作为自注意力机制中的特征嵌入，得到HW×CHW \times CHW×C的特征，再对channel加和再reshape得到H×W×1H \times W \times 1H×W×1的模型置信度。计算如下：将McM_cMc和MdM_dMd 拼接起来，输入到一个两层的Encoder-Decoder网络中，得到模态各自的权重Ec,Ed∈RH∗WE_c, E_d \in \mathbb{R}^{H*W}Ec,Ed∈RH∗W。这个权重对CIF、DFF 分支独立输出的响应图RcR_cRc和RdR_dRd作element-wise乘（加权操作）得到RFR_FRF。 RF=Rd⊙Ed+Rc⊙EcR_F=R_d \odot E_d+R_c \odot E_cRF=Rd⊙Ed+Rc⊙Ec算法流程

对于当前的追踪图片

两个分支Discriminative branch和Complementary branch 分别采用特征融合方法和图片信息融合方法得到目标响应图；利用ADF，对两个分支Discriminative branch和Complementary branch 的响应图进行融合，生成最终响应图；利用DiMP中IoU预测模块，对最终响应图中取10个proposal，再对proposal预测IoU分数，取分数最高的三个proposal作平均，输出最终的预测边界框。

QQQQQ QQ Q

本文链接地址:https://www.jiuchutong.com/zhishi/292356.html 转载请保留说明！

上一篇：如何实现chrome谷歌浏览器多开(独立环境独立cookie)(chrome怎么用谷歌)

下一篇：农业病虫害数据集与算法——调研整理(2020年农业病虫害)