位置: IT常识 - 正文

CVPR2022 多目标跟踪(MOT)汇总(cvpr2020目标跟踪)

发布时间:2024-01-17
CVPR2022 多目标跟踪(MOT)汇总 一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》

推荐整理分享CVPR2022 多目标跟踪(MOT)汇总(cvpr2020目标跟踪),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:cvpr2020目标检测,cvpr2020目标跟踪,cvpr目标跟踪,cvpr目标跟踪,cvpr2021 目标跟踪,cvpr2021 目标跟踪,cvpr2020目标检测,cvpr2022多目标跟踪,内容如对您有帮助,希望把文章链接给更多的朋友!

作者: Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo The University of Hong Kong, Carnegie Mellon University, ByteDance Inc

论文链接:https://arxiv.org/pdf/2111.14690.pdf Github:https://github.com/DanceTrack/DanceTrack

1、摘要

当前的多目标跟踪采用检测器来进行目标定位,并用ReID模型来实现数据关联。然而在现在的MOT Challenge数据集中,目标的外观是具有足够的区分性的,而这种区分性使得ReID模型很容易区分目标,实现数据关联。此外,当前的数据集中目标的运动模式比较简单,目标运动都可以被近似为匀速线性运动。而这种目标与现实场景中的数据关联是存在一些bias的,我们实际中通常跟踪的目标具有相同的外观表征,同时其运动姿态也会更多样。为此,本文作者提出了一个“DanceTrack”的数据集,希望其能提供一个更好的平台来开发更多的MOT算法,更少地依赖于视觉辨别,更多地依赖于运动分析。

2、方法

在上述中,已经提到了DanceTrack的提出动机,下图也是数据集中的一些示例。 以下是DanceTrack与MOT Challenge数据集的比较。 🔺在论文中也给出了很详细地分析,这个数据集的提出也说明了未来多目标跟踪研究的一个趋势,会去关注运动更加复杂,目标外观更相似的场景(后续的SoccerNet也有相似的Motivation)。

二、《SoccerNet-Tracking: Multiple Object Tracking Dataset and Benchmark in Soccer Videos》

作者: Anthony Cioppa, Silvio Giancola, Adrien Deliege, Le Kang, Xin Zhou, Zhiyu Cheng, Bernard Ghanem, Marc Van Droogenbroeck University of Li`ege, KAUST, Baidu Research

论文链接:https://arxiv.org/pdf/2204.06918.pdf Github:www.soccer-net.org

1、摘要

在足球视频中跟踪物体对于收集球员和球队的统计数据非常重要,无论是估计总距离、控球还是队形。视频处理可以帮助自动提取这些信息,而不需要任何携带型传感器,因此适用于任何体育场上的任何球队。然而,当前的数据集来测评这个问题是比较困难的。因此,在本项工作中,我们提出了一个新的多目标跟踪数据集,由200个序列组成,每个序列30秒,代表具有挑战性的足球场景,和一个完整的45分钟的半场用于测评长期跟踪。该数据集完成了目标框和轨迹ID的完成标注,允许各种方法在各基准上做测评。该数据集也验证了当前MOT方法在这种快速运动和严重遮挡的领域中并没有很好的解决。因此作者也希望通过该数据集的提出来促进该部分研究的进行。

2、方法

SoccerNet的数据集示例如图所示。

以下是SoccerNet与MOT数据集的比较。

三、《MeMOT: Multi-Object Tracking with Memory》

作者: Jiarui Cai,Mingze Xu, Wei Li, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto University of Washington,AWS AI Labs

论文链接:https://arxiv.org/pdf/2203.16761.pdf

1、摘要

我们提出了一种在线跟踪算法,在一个公共框架下执行对象检测和数据关联,能够在长时间跨度后链接对象。这是通过保留一个大的时空内存来存储被跟踪对象的ID Embeddings,并根据需要自适应地从内存中引用和聚合有用的信息来实现关联。该模型称为MeMOT,由三个主要模块组成,它们都是基于Transformer的:1)、假设生成(Hypothesis Generation),在当前视频帧中生成目标proposals;2)、内存编码(Memory Encoding),从每个被跟踪对象的内存中提取核心信息;3)、内存解码(Memory Decoding),同时解决目标检测和数据关联任务,进行多目标跟踪。当在广泛采用的MOT基准数据集上进行评估时,MeMOT观察到非常具有竞争性的性能。

2、方法

🔺这篇文章的特点是通过Transformer的结构搭建了一个端到端的MOT框架,不需要后处理,性能和当前的SOTA比不是很高,但是具有一定的竞争力。作者在文中没有提到推理速度,感觉这个框架速度应该是一弱项。

要理解这个框架,主要是了解作者提出的三个模块。

1)假设生成(Hypothesis Generation):该模块通过Transformer的Encoder和Decoder生成一组proposal embeddings。这组embeddings有两个作用,一个是表示当前帧新出现的一些目标,另一个是为已经在跟踪状态的目标提供新的位置信息和外观信息。

2)内存编码(Memory Encoding):这个模块通过Cross-Attn Module来维护每一个instance的两个特征,一个关注短时信息,一个关注长时信息,最后把他们concat在一起去提取每一个instance的特征。长时特征是做了动态更新的,但是作者在文中没有说明更新的方式。 3)内存解码(Memory Decoding):将track的embedding和embedding proposal拼接起来,作为Q,并用当前帧的特征做K和V,通过一个Solver直接预测出Bounding Box,Objectness Score和Uniqueness Score。并通过这些值的组合直接获得最后的检测和数据关联结果。

CVPR2022 多目标跟踪(MOT)汇总(cvpr2020目标跟踪)

四、《Learning of Global Objective for Network Flow in Multi-Object Tracking》

作者: Shuai Li,Yu Kong,Hamid Rezatofighi Rochester Institute of Technology,Monash University

论文链接:https://arxiv.org/pdf/2203.16210.pdf

1、摘要

这篇工作研究了基于最小代价流公式(MCF)的多目标跟踪问题,并将其视为一个线性规划的实例进行研究。根据给出的计算性推理,MCF的成果跟踪极大地依赖于底层线性的可学习代价函数。以往的研究大多数聚焦于如何在训练过程中考虑两帧信息来学习代价函数,因此学习到的代价函数对于MCF来说是次优的。在推理过程中,必须在多帧上考虑进行数据关联。为了解决这一问题,本文提出了一种新的可微框架,通过解决一个双层优化问题将训练和推理相关联。其中底层解决了一个线性程序关联的问题,上层为一个包含全局跟踪结果的损失函数。可微层通过梯度下降进行反向传播,明确地学习和正则化全局参数化代价函数。通过这种方法,我们能够学习一个更好的全局MCF目标跟踪器。在MOT16、MOT17和MOT20上,与目前最先进的方法相比,本文的跟踪器取得了具有竞争力的性能。

2、方法

在这个方法中,作者先通过已有的网络提取目标定位信息,和每一个目标的外观特征。这些外观的特征会构建一个有向的图(方向和时序方向相同)。一个MLP层用于回归不同目标之间的连接概率。在训练过程中通过全局最优化的方法来构建损失优化MLP的参数,而在推理过程中,可以通过训练好的MLP网络直接预测结果进行tracking。

全文的推理部分比较多,但是全是涉及怎么通过全局最小代价的方法来训练MLP的。需要细致了解该工作可以去看原文。本博客较关心的是作者用了MLP做了什么,输入是什么,最后怎么推理。

MLP主要用于预测两个detection结果之间是否可以关联,如果可以关联会预测出一个概率,其式子如下: 其中eij表示的是两个detection之间的边是如何构建的(包括尺度、中心距离、框的IOU、embedding的距离等),如下式: 在推理的时候,文中提到会利用基于一个长度为50帧~150帧的批次进行跟踪(预测连接概率,算最小代价流)。并用了Gurobi求解器来获得最后的数据关联结果。由于每一个批次都覆盖了重复帧,所以可以把短轨关联成长轨。

在后处理中作者还用了单目标跟踪器。

五、《Global Tracking Transformers》

作者: Xingyi Zhou,Tianwei Yin,Vladlen Koltun,Phillip Kr¨ahenb¨uhl The University of Texas at Austin,Apple

论文链接:https://arxiv.org/abs/2203.13250 代码链接:https://github.com/xingyizhou/GTR

1、摘要

我们提出一种新的基于Transfomer的结构用于全局多目标跟踪。我们的网络把一段短的视频序列作为输入,并预测所有对象的运行轨迹。其核心部分是一个全局tracking transformer,用于操作序列中所有帧中的目标。Transfomer网络对所有帧中的对象特征进行编码,并使用queries将它们分组为轨迹。轨迹的queries是来自单个帧的对象特征,并自然地产生独特的轨迹。我们的全局tracking transformer不需要中间的成对分组或组合关联,并且可以与目标检测器联合训练。它在流行的MOT17基准测试上取得了具有竞争力的性能,有75.3MOTA和59.1HOTA。更重要的是,我们的框架无缝地集成到最先进的大型vocabulary检测器中,以跟踪任何对象。在具有挑战性的TAO数据集上进行的实验表明,我们的框架改进了基于成对关联的方法。

🔺本文的Motivation是搭建个网络可以直接从32帧的图像中学习一种匹配结果,而不是逐帧做一个匹配。

2、方法

图中所示的是所提出的Global Tracking Transformer。其中F表示的是多帧的detection结果所提取的特征(其中N表示数量,D表示维度),Q表示用来检索的tracklet的特征(其中M表示数量,D表示维度)。通过Transformer的方式,直接预测获得一个匹配结果G,其中的数值预测每一个轨迹和每一个目标的关联关系,即 git(qk, F) ∈ R表示第t帧第i个目标与该轨迹的关联关系,该值为0表示这个目标与该轨迹没有关联关系。

在获得了G矩阵之后,在每一帧中单独对同一个轨迹的匹配分数做一次Softmax,得到: 通过找最大的概率,可以直接获得一条轨迹。在训练过程中,作者通过最大化PA来让网络学会这种能力。

而在测试过程中,感觉和DeepSort的过程依然比较像,不同的是Deepsort直接用了embedding的距离来构建匹配矩阵,而这个是通过transformer网络所预测出来的PA,之后用Hungarian来保持唯一的匹配结果。

六、《Unified Transformer Tracker for Object Tracking》

作者: Fan Ma,Mike Zheng Shou,Linchao Zhu,Haoqi Fan,Yilei Xu, Yi Yang, Zhicheng Yan ReLER Lab, AAII, University of Technology Sydney,National University of Singapore,Meta AI,Zhejiang University

论文链接:https://arxiv.org/pdf/2203.15175v1.pdf

1、摘要

目标跟踪作为计算机视觉中的一个重要领域,已经形成了两个独立的社区,分别研究单目标跟踪(SOT)和多目标跟踪(MOT)。然而,由于两种任务的训练数据集和跟踪对象的不同,目前的一种跟踪场景的方法不容易适应另一种跟踪场景。虽然UniTrack[45]证明了可以使用具有多个头部的共享外观模型来处理单个跟踪任务,但它没有利用大规模跟踪数据集进行训练,并且在单目标跟踪上表现较差。在这项工作中,我们提出了Unified Transformer Tracker (UTT) ,以解决不同场景下的跟踪问题。我们在UTT中构架了一个Transformer Tracker在SOT和MOT中跟踪目标,利用目标特征和跟踪帧特征之间的相关性来定位目标。我们证明了SOT和MOT任务都可以在这个框架内得到解决,并且该模型可以通过在单个任务的数据集上交替优化SOT和MOT目标来同时进行端到端训练。在SOT和MOT数据集上训练了一个统一的模型,在几个基准测试上进行了广泛的实验。 🔺相比于UniTrack这篇工作解决了在SOT和MOT两个数据集上训练的问题,在SOT任务上提点明显,而MOT上还有一些差距可能是未来Unit类方法可以继续完善的地方。

2、方法

我们首先使用主干Φ来提取帧特征。 Transformer Tracker 有三个输入,包括参考帧和跟踪帧(当前帧),以及参考帧中的目标框。Transformer Tracker的目标是预测当前帧中的目标定位。首先使用Transformer Tracker中的Target Decoder提取目标特征,Proposal Decoder在跟踪帧中产生候选搜索区域。目标特征和搜索特征都被输入Target Tansformer以预测目标定位。

该方法在MOT中还是需要一个额外的detector来完成目标的定位。

本文链接地址:https://www.jiuchutong.com/zhishi/299548.html 转载请保留说明!

上一篇:lodash-es 工具库(es工具类)

下一篇:通过使用html的css样式来达到给背景色添加渐变色的效果(用html语言完成以下内容)

  • 华为p40都是5g手机吗(华为p40都是5g的吗)

    华为p40都是5g手机吗(华为p40都是5g的吗)

  • 网易云壁纸如何自定义(网易云音乐壁纸怎么设置在哪里)

    网易云壁纸如何自定义(网易云音乐壁纸怎么设置在哪里)

  • 京东购物车删了能恢复吗(京东购物车删了怎么恢复)

    京东购物车删了能恢复吗(京东购物车删了怎么恢复)

  • icloud已满删除的照片还有吗(icloud满了删除的照片怎么恢复)

    icloud已满删除的照片还有吗(icloud满了删除的照片怎么恢复)

  • qq没加好友可以发文件吗(qq没加好友可以发视频吗)

    qq没加好友可以发文件吗(qq没加好友可以发视频吗)

  • 抖音被屏蔽是什么状态(抖音屏蔽是什么)

    抖音被屏蔽是什么状态(抖音屏蔽是什么)

  • 华为nova7能开空调吗(华为nova7开空调)

    华为nova7能开空调吗(华为nova7开空调)

  • 为什么电脑上会有腾讯影视库(为什么电脑上会出现很多文件)

    为什么电脑上会有腾讯影视库(为什么电脑上会出现很多文件)

  • 苹果手机自动填充密码什么意思(苹果手机自动填充密码怎么查看)

    苹果手机自动填充密码什么意思(苹果手机自动填充密码怎么查看)

  • 华为p10支不支持OTG(华为p10支不支持电信VoLTE)

    华为p10支不支持OTG(华为p10支不支持电信VoLTE)

  • 爱奇艺vip电影如何下载(爱奇艺VIP电影如果搞到U盘)

    爱奇艺vip电影如何下载(爱奇艺VIP电影如果搞到U盘)

  • 扫描的分辨率多少合适(扫描分辨率多少,和原图效果一样)

    扫描的分辨率多少合适(扫描分辨率多少,和原图效果一样)

  • 华为mate30pro前置摄像头拍照模糊(华为mate30pro前置摄像头进灰怎么办)

    华为mate30pro前置摄像头拍照模糊(华为mate30pro前置摄像头进灰怎么办)

  • 大王卡芒果tv免流量吗(大王卡怎么领取芒果会员)

    大王卡芒果tv免流量吗(大王卡怎么领取芒果会员)

  • 红米k20pro电池不耐用(红米k20pro电池充电)

    红米k20pro电池不耐用(红米k20pro电池充电)

  • iphone6电池多少毫安(iphone6系列电池容量表)

    iphone6电池多少毫安(iphone6系列电池容量表)

  • 天猫超市会员可以退吗(天猫超市会员可以退款吗)

    天猫超市会员可以退吗(天猫超市会员可以退款吗)

  • 笔记本适配器坏了症状(笔记本适配器坏了怎么修)

    笔记本适配器坏了症状(笔记本适配器坏了怎么修)

  • iphone11pro有指纹解锁吗(iphone11pro指纹识别)

    iphone11pro有指纹解锁吗(iphone11pro指纹识别)

  • 苹果11有无线充电吗(苹果12pro有无线充电吗)

    苹果11有无线充电吗(苹果12pro有无线充电吗)

  • realmex什么时候上市(realmex什么时候停产)

    realmex什么时候上市(realmex什么时候停产)

  • 小米8语音唤醒在哪(小米语音唤醒可以卸载吗)

    小米8语音唤醒在哪(小米语音唤醒可以卸载吗)

  • 在喀拉拉邦河流中行驶的一艘小船,印度 (© Shutterstock)(喀拉拉邦地理位置)

    在喀拉拉邦河流中行驶的一艘小船,印度 (© Shutterstock)(喀拉拉邦地理位置)

  • 网络工程师笔记(网络工程师笔记大全)

    网络工程师笔记(网络工程师笔记大全)

  • 分公司销售给总公司的印花税
  • 普通发票为什么只能领一张
  • 营业外收入是否属于当期损益
  • 实收资本实缴需要什么手续
  • 广告费和业务宣传费15%还是30%
  • 资产减值损失属于什么科目借方增加还是减少
  • 建筑施工企业存货是未结转的成本对吗
  • 注册资本余额为100万亿元
  • 主营业务收入冲销
  • 工程预付款包括工人工资吗
  • 差额征税进项如何抵扣
  • 建设项目检测费
  • 增值税实际缴纳总额
  • 公司注销时资本要交税吗
  • 电子发票详见清单怎么开
  • 房租费简易征收税率
  • 福利费抵扣了进项税有2年了怎么办
  • 特种设备培训费计入什么会计科目
  • 应收票据背书转让以取得所需物资
  • 增值税发票过期未抵扣怎么办
  • 非金融企业之间的借款合同要交印花税吗
  • 如何理解结转利润的意思
  • typecho安装插件
  • 再次研究下cache_lite
  • el-table-column label动态
  • 发票开具的常见错误
  • 企业注销清算流程
  • 销售滞后税务处理
  • 蒙塔巴诺督查
  • php获取路径和目录的方法
  • 接受母公司捐赠无协议约定
  • html编写
  • 离线开票限额怎么办
  • 企业的差旅费计入什么科目
  • 专票认证对企业有影响吗
  • 什么是企业的应付账款
  • 公司购买的商品是白酒用于招待现金流项目是哪类
  • vue打包找不到文件
  • 业务招待费是否计入管理费用
  • mustn't be allowed
  • 财务报表审计的定义
  • 收到银行承兑汇票怎么兑现
  • 股东存入投资款要交什么税
  • 城镇土地使用税每年都要交吗
  • 应发工资账务处理
  • 公司从异地迁移到本地怎么向当地政府写申请
  • 网上交税已经缴费怎么退
  • 水利建设税怎么做账
  • 投资性房地产收回自用
  • 员工体检费计入什么会计科目里
  • 资产负债表固定资产怎么填
  • 房地产企业成本控制存在的问题及对策
  • mysql5.7.27安装教程
  • ubuntu系统如何安装
  • window10与CentOS双系统安装详细教程
  • window10收藏夹怎么导出
  • win7系统重装后没声音
  • win8系统怎么设置
  • win10系统关闭防火墙服务
  • init systemd
  • linux常用命令清除
  • win10安装不了itunes怎么办
  • linux 怎么样
  • 菜单按钮是什么
  • android搭建环境
  • opengl 输入框
  • node.js怎么用
  • 微信小程序图片加载不出来
  • linux4个主要部分
  • css中边界margin的多种定义方法
  • 深入理解计算机系统
  • gradle手动安装
  • jQueryUI Datepicker组件设置日期高亮
  • python动态加载py
  • 电子税务局申报密码怎么设置?
  • 税务文书送达回证模板
  • 河北个体工商户年报入口
  • 个人年收入超过多少不能退税
  • 安徽省纪检监察官网
  • 杭州地税局客服电话
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号