位置: IT常识 - 正文

CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!(cvpr2021论文列表)

编辑:rootadmin
CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!

推荐整理分享CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!(cvpr2021论文列表),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:cvpr论文下载,cvpr2020 论文列表,cvpr优秀论文,cvpr2017最佳论文,cvpr2021论文列表,cvpr论文下载,cvpr2020 论文列表,cvpr2021论文列表,内容如对您有帮助,希望把文章链接给更多的朋友!

整理:AI算法与图像处理

CVPR2023论文和代码整理:https://github.com/DWCTOD/CVPR2023-Papers-with-Code-Demo

欢迎关注公众号 AI算法与图像处理,获取更多干货:

大家好,  最近正在优化每周分享的CVPR论文, 目前考虑按照不同类别去分类,方便不同方向的小伙伴挑选自己感兴趣的论文哈

大家好,目前给每天的论文汇总接入chatGPT帮忙总结,目前在适用阶段,只给出部分文章的总结!

1. Title: Natural Language-Assisted Sign Language Recognition(辅助自然语言手语识别)2. Authors: Ronglai Zuo, Fangyun Wei, Brian Mak 3. Affiliation: The Hong Kong University of Science and Technology(香港科技大学) 4. Keywords: Sign Language Recognition, visual language, glosses, VISigns, neural networks 5. Urls: http://arxiv.org/abs/2303.12080v1, Github: https://github.com/FangyunWei/SLRT. 6. Summary:  - (1):本文研究基于视觉语言准确理解手语(Sign Language)的问题。手语是指通过手指、面部表情、身体动作等方式传达信息的视觉语言。手语存在大量外观相似的符号,称为“视觉无法区分的标记”(VISigns),这限制了视觉神经网络的识别能力。 - (2):以往的方法中未考虑“GLOSS”所包含的语义信息,本文提出了一种基于自然语言辅助的手语识别框架(NLA-SLR),可以挖掘GLOSS的语义信息,基于此提出了两种方案:(1)针对语义接近的VISigns,提出了“语言感知标记平滑”方法,并生成平滑标记以便训练使用;(2)针对语义不同但视觉相似的VISigns,我们提出了一种跨模态混合方法将视觉和GLOSS特征融合。- (3):本文提出了新型骨架结构,视频关键点网络(VKNet)。它不仅可以建模RGB视频和人体关键点,而且可以从具有不同时间接受场的标志视频中获取知识。- (4):在MSASL,WLASL和NMFs-CSL三个广泛使用的基准测试中,NLA-SLR均取得了最先进的性能。其中,MSASL上取得了94.5%的准确率,超过现有方法2.2个百分点。此外,本文所提出的方法还在三个有挑战性的任务(单词级别识别,多词级别识别和动作级别识别)上取得了当前最好的结果。prompt_token_used: 3154 completion_token_used: 642 total_token_used: 3796 response_time: 29.965 s method_result: 7. Methods: - (1): 本文提出了一种基于自然语言辅助的手语识别框架(NLA-SLR),目标是解决手语识别中存在的“视觉无法区分的标记”(VISigns)限制视觉神经网络的识别能力的问题。NLA-SLR框架主要包括三个部分:数据预处理、视频关键点网络(VKNet)提取视觉特征以及头部网络。其中,数据预处理模块使用HRNet对手语视频的人体关键点进行估算,VKNet主要由VKNet-32和VKNet-64组成,可以获得包含不同时间接受场的标志视频的知识,而头部网络则包括语言感知标记平滑和跨模态混合这两种方案。- (2): 本文利用FastText预训练模型提取标记的词向量特征,并结合视觉特征进行识别。针对语义接近的VISigns,提出了“语言感知标记平滑”方法,即在标准的标签平滑的基础上,依据GLOSS的语义相似性得到一组非均匀权值的平滑标记。针对语义不同但视觉相似的VISigns,本文提出了一种跨模态混合方法,将视觉和GLOSS特征融合,在每一对输入特征中都执行一种混合方法,以提高特征的可区分性。- (3): 本文提出了一种新型骨架网络结构——视频关键点网络(VKNet),可以从具有不同时间接受场的标志视频中获取知识。VKNet主要由VKNet-32和VKNet-64组成,由视频编码器和关键点编码器组成。在本文实现中,采用S3D网络结构作为视频编码器,采用HRNet模型进行关键点特征的提取,同时引入双向横向连接对视频和关键点之间的信息交互进行优化。- (4): 在三个广泛使用的基准测试MSASL、WLASL和NMFs-CSL中,本方法在手语识别方面均达到了最先进的水平,并在三个有挑战性的任务(单词级别识别、多词级别识别和动作级别识别)上取得了当前最好的结果。8. Conclusion: - (1): 本研究的意义在于提出了一种可辅助手语识别的新型框架,并有效利用手语的语义信息。通过语言感知标记平滑和跨模态混合等方法,显著提高了手语识别的准确性。该框架还提出了一种新型骨架结构——视频关键点网络(VKNet),实现了对手语视频的人体关键点进行估算,并从具有不同时间接受场的标志视频中获取知识。- (2): 创新点:提出了基于语义信息的手语识别框架,针对不同的符号问题提出了两种不同的解决方法,并提出了新型骨架结构;性能:在三个基准测试上均达到最先进的水平,并在三个有挑战性的任务上取得了当前最好的结果;工作量:虽然本文提出的方法具有复杂性,但是通过新型骨架结构的提出,大大减少了手动特征提取的工作。1. Title:OmniTracker: Unifying Object Tracking by Tracking-with-Detection2. Authors: Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Xiyang Dai, Lu Yuan, Yu-Gang Jiang 3. Affiliation: 上海智能信息处理重点实验室,复旦大学计算机科学系 4. Keywords: object tracking, tracking-with-detection, instance tracking, category tracking, unified tracking model 5. Urls: http://arxiv.org/abs/2303.12079v1, Github: None 6. Summary: - (1): 该文主要研究目标跟踪(OT)这一领域,将instance tracking、category tracking两种主流方法进行统一;- (2): 文章基于评估现有方法的局限性,提出了一种称为“tracking-with-detection”的跟踪方法,即跟踪辅助检测,检测提供目标候选框协助跟踪,从而弥补了两种方法的不足,并设计出名称为OmniTracker的统一模型;- (3): 该文设计了一种基于素有网络架构的新型跟踪模型OmniTracker,使用tracking-with-detection的策略,运用共享网络体系、模型权重和推理管道对所有跟踪任务进行解决;- (4): OmniTracker在包括7个跟踪数据集在内的大量跟踪实验中,显示比特定任务和统一跟踪模型都获得了更好的跟踪性能。prompt_token_used: 1816 completion_token_used: 422 total_token_used: 2238 response_time: 18.764 s method_result: 7. 方法: - (1): 本文提出了一种新的跟踪方法,称之为“tracking-with-detection”,该方法通过将检测方法与跟踪方法结合起来,以提供目标候选框来协助实现跟踪任务。同时,通过设计专门的分类器,该方法能够对目标进行实例级别和类别级别的跟踪。- (2): 为了将instance tracking和category tracking进行统一,本文引入了三个关键的组件:一是对象框的表示,该方法使用单个包围盒来表示一个对象;二是特征嵌入的处理,采用可训练的网络模型来将每个对象的状态编码成特征向量;三是更新方程和推理模块,采用递归神经网络来预测对象状态并更新对象的位置。- (3): 本文提出了一种使用共享CNN(卷积神经网络)架构的跟踪模型OmniTracker。同时,通过使用统一的网络体系结构,共享模型权重和推理管道,该模型能够同时解决所有的跟踪问题,包括instance tracking和category tracking。- (4): 为了评估OmniTracker的有效性,本文对多个跟踪数据集进行了实验。结果表明,OmniTracker在多个评估指标上都表现优于特定任务和统一跟踪模型。8. Conclusion: - (1): 本文提出了一种全新的跟踪方法OmniTracker,该方法能够将instance tracking和category tracking进行统一,填补了两种方法之间的不足。此外,该方法还引入了tracking-with-detection策略,通过与检测方法结合,提供了目标候选框,加强了目标的定位精度,表现出很强的创新性。- (2): 创新点:整合instance tracking和category tracking方法,引入tracking-with-detection策略;性能:在多个跟踪数据集上进行了实验,表现出很好的跟踪性能,尤其在VOS任务中表现优异;工作量:本文提出的OmniTracker模型在跟踪任务中表现出很好的灵活性和可扩展性,但是在某些任务上尚有提升空间。 1. Title: Two-shot Video Object Segmentation (二拍视频对象分割)2. Authors: Kun Yan, Xiao Li, Fangyun Wei, Jinglu Wang, Chenbin Zhang, Ping Wang, Yan Lu 3. Affiliation: 1. Peking University (北京大学), 2. Microsoft Research Asia 4. Keywords: video object segmentation, semi-supervised learning, two-shot learning 5. Urls: Paper: http://arxiv.org/abs/2303.12078v1, Github: https://github.com/yk-pku/Two-shot-Video-Object-Segmentation6. Summary: - (1):这篇文章的研究背景是视频对象分割领域中,难以获得像素级注释数据,导致现有的方法都必须在密集注释视频数据上训练。为了解决这个问题,作者提出了一种使用稀疏注释数据训练视频对象分割模型的方法——两拍视频对象分割。- (2):先前的 VOS 方法都是在密集注释的视频数据上进行训练,而此类注释数据的获得成本高昂,本文提出了使用两个标记帧在训练视频数据上训练一个仍能保持性能的满意的 VOS 模型的方法。该方法通过利用伪标签对未标记帧进行训练,并优化模型来达到这一目的。先前的训练方法的主要问题是需要许多标记数据,而领域内很少有机会进行大规模注释。而本文提出的新方法可以在大量没有注释的数据上训练模型。- (3):作者提出了一种半监督学习的训练范式,该范式首先对两个标有标签帧的视频进行半监督训练,而第一帧始终是有标签的。然后,该模型用于生成存储在伪标签库中的未标记帧的伪标签便于训练。最后,该模型与有标签和伪标签数据一起重新训练,不再有任何限制。使用 7.3% 和 2.9% DAVIS 基准数据集的标注数据,该方法在 YouTube-VOS 和 DAVIS 基准数据集上实现可比效果。- (4):本文的方法在两个标记帧的情况下仍然具有良好的效果,并且能够利用大量未标记帧进行训练。在 YouTube-VOS 和 DAVIS 基准数据集上,仅使用 7.3% 和 2.9% 的标记数据,该方法可以实现与完全标记数据集训练的相似结果。7. Methods: - (1): 本文提出了一种在视频对象分割领域中使用稀疏注释数据训练模型的方法——两拍视频对象分割,其核心思想是使用仅有两个标记帧的训练数据来训练模型,并利用伪标签对未标记的帧进行训练,以充分利用大量未标记数据。- (2): 该方法采用了一种半监督学习的训练方法,首先针对两帧有标签视频进行半监督训练,使用伪标签对未标记帧进行训练,最后在有标签和伪标签数据上进行重新训练。- (3): 采用随机跳帧的数据增强方式,优化该方法的泛化性能。- (4): 该方法在 DAVIS and YouTube-VOS 基准数据集上,仅使用 7.3% 和 2.9% 的标记数据即可实现与完全标记数据集训练的相似结果。prompt_token_used: 2590 completion_token_used: 302 total_token_used: 2892 response_time: 14.389 s conclusion_result: 8. Conclusion: - (1): 本文提出了一种仅需要两个标记帧的视频对象分割(Two-shot Video Object Segmentation)训练方法,通过利用未标记的大量数据,实现了仅使用 7.3% 和 2.9% 的标记数据即可达到与完全标记数据集训练的相似结果的性能,具有重要的研究和应用价值。- (2): 创新点:提出了仅使用两个标记帧训练视频对象分割的方法,采用半监督学习的训练范式,优化了模型的泛化性能,且可以应用于大多数的全监督视频对象分割方法。性能:在DVIS and YouTube-VOS基准数据集上,仅使用少量标记数据即可取得与完全标记数据集训练的相似结果。工作量:该方法在训练过程中,最多只需要两个标记帧,同时通过使用随机跳帧的数据增强方式,也降低了训练的工作量。

最新成果demo展示:

标题:CVPR2023|首个可用于超高质量3D数字人生成的3D扩散生成模型!支持照片或者文本描述定制

标题:Rodin: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion

论文:https://arxiv.org/abs/2212.06135

摘要:

本文提出了一种3D生成模型,该模型使用扩散模型自动生成以神经辐射场表示的3D数字化身。生成这样的化身的一个重大挑战是,3D中的存储器和处理成本对于生成高质量化身所需的丰富细节是令人望而却步的。为了解决这个问题,我们提出了展开扩散网络(Rodin),它将神经辐射场表示为多个2D特征图,并将这些图展开到单个2D特征平面中,在该平面内我们执行3D感知扩散。Rodin模型带来了急需的计算效率,同时通过使用3D感知卷积来保持3D中扩散的完整性,该卷积根据2D特征平面中的投影特征在3D中的原始关系来处理它们。我们还使用潜在条件反射来协调特征生成,以实现全局一致性,从而产生高保真度的化身,并使其能够基于文本提示进行语义编辑。最后,我们使用分层合成来进一步增强细节。通过我们的模型生成的3D化身与通过现有生成技术生成的3D头像相比是有利的。我们可以生成具有逼真发型和胡须等面部毛发的高度详细的化身。我们还演示了从图像或文本生成3D化身以及文本引导的可编辑性。

CVPR 2023Updated on : 22 Mar 2023total number : 31

Natural Language-Assisted Sign Language Recognition

论文/Paper: http://arxiv.org/pdf/2303.12080

代码/Code: https://github.com/FangyunWei/SLRT

Two-shot Video Object Segmentation

论文/Paper: http://arxiv.org/pdf/2303.12078

代码/Code: https://github.com/yk-pku/Two-shot-Video-Object-Segmentation

ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals

论文/Paper: http://arxiv.org/pdf/2303.12071

代码/Code: None

Joint Visual Grounding and Tracking with Natural Language Specification

论文/Paper: http://arxiv.org/pdf/2303.12027

代码/Code: https://github.com/lizhou-cs/JointNLT.

Automatic evaluation of herding behavior in towed fishing gear using end-to-end training of CNN and attention-based networks

论文/Paper: http://arxiv.org/pdf/2303.12016

代码/Code: None

Learning A Sparse Transformer Network for Effective Image Deraining

论文/Paper: http://arxiv.org/pdf/2303.11950

代码/Code: https://github.com/cschenxiang/drsformer

Context De-confounded Emotion Recognition

论文/Paper: http://arxiv.org/pdf/2303.11921

代码/Code: None

Solving Oscillation Problem in Post-Training Quantization Through a Theoretical Perspective

论文/Paper: http://arxiv.org/pdf/2303.11906

代码/Code: None

Focused and Collaborative Feedback Integration for Interactive Image Segmentation

论文/Paper: http://arxiv.org/pdf/2303.11880

代码/Code: https://github.com/veizgyauzgyauz/fcfi

The Treasure Beneath Multiple Annotations: An Uncertainty-aware Edge Detector

论文/Paper: http://arxiv.org/pdf/2303.11828

代码/Code: https://github.com/zhoucx117/uaed

Propagate And Calibrate: Real-time Passive Non-line-of-sight Tracking

论文/Paper: http://arxiv.org/pdf/2303.11791

代码/Code: None

Detecting Everything in the Open World: Towards Universal Object Detection

论文/Paper: http://arxiv.org/pdf/2303.11749

代码/Code: None

Data-efficient Large Scale Place Recognition with Graded Similarity Supervision

论文/Paper: http://arxiv.org/pdf/2303.11739

代码/Code: https://github.com/marialeyvallina/generalized_contrastive_loss

CVPR2023论文速递(2023.3.22)!已接入ChatGPT总结!共31篇!(cvpr2021论文列表)

Abstract Visual Reasoning: An Algebraic Approach for Solving Raven's Progressive Matrices

论文/Paper: http://arxiv.org/pdf/2303.11730

代码/Code: https://github.com/xu-jingyi/algebraicmr

3D Human Mesh Estimation from Virtual Markers

论文/Paper: http://arxiv.org/pdf/2303.11726

代码/Code: https://github.com/ShirleyMaxx/VirtualMarker.

Learning a 3D Morphable Face Reflectance Model from Low-cost Data

论文/Paper: http://arxiv.org/pdf/2303.11686

代码/Code: https://github.com/yxuhan/reflectancemm

Full or Weak annotations? An adaptive strategy for budget-constrained annotation campaigns

论文/Paper: http://arxiv.org/pdf/2303.11678

代码/Code: None

ALOFT: A Lightweight MLP-like Architecture with Dynamic Low-frequency Transform for Domain Generalization

论文/Paper: http://arxiv.org/pdf/2303.11674

代码/Code: https://github.com/lingeringlight/aloft

Visibility Constrained Wide-band Illumination Spectrum Design for Seeing-in-the-Dark

论文/Paper: http://arxiv.org/pdf/2303.11642

代码/Code: Available:https://github.com/MyNiuuu/VCSD.

Human Pose as Compositional Tokens

论文/Paper: http://arxiv.org/pdf/2303.11638

代码/Code: https://github.com/Gengzigang/PCT.

Equiangular Basis Vectors

论文/Paper: http://arxiv.org/pdf/2303.11637

代码/Code: https://github.com/njust-vipgroup/equiangular-basis-vectors

HRDFuse: Monocular 360°Depth Estimation by Collaboratively Learning Holistic-with-Regional Depth Distributions

论文/Paper: http://arxiv.org/pdf/2303.11616

代码/Code: None

Novel Class Discovery for 3D Point Cloud Semantic Segmentation

论文/Paper: http://arxiv.org/pdf/2303.11610

代码/Code: https://github.com/luigiriz/nops

Boundary Unlearning

论文/Paper: http://arxiv.org/pdf/2303.11570

代码/Code: None

One-to-Few Label Assignment for End-to-End Dense Detection

论文/Paper: http://arxiv.org/pdf/2303.11567

代码/Code: https://github.com/strongwolf/o2f.

Boosting Verified Training for Robust Image Classifications via Abstraction

论文/Paper: http://arxiv.org/pdf/2303.11552

代码/Code: https://github.com/zhangzhaodi233/abscert

Fix the Noise: Disentangling Source Feature for Controllable Domain Translation

论文/Paper: http://arxiv.org/pdf/2303.11545

代码/Code: https://github.com/LeeDongYeun/FixNoise

PRISE: Demystifying Deep Lucas-Kanade with Strongly Star-Convex Constraints for Multimodel Image Alignment

论文/Paper: http://arxiv.org/pdf/2303.11526

代码/Code: fromhttps://github.com/Zhang-VISLab.

Sketch2Saliency: Learning to Detect Salient Objects from Human Drawings

论文/Paper: http://arxiv.org/pdf/2303.11502

代码/Code: None

Polynomial Implicit Neural Representations For Large Diverse Datasets

论文/Paper: http://arxiv.org/pdf/2303.11424

代码/Code: https://github.com/rajhans0/poly_inr

STDLens: Model Hijacking-resilient Federated Learning for Object Detection

论文/Paper: http://arxiv.org/pdf/2303.11511

代码/Code: https://github.com/git-disl/stdlens

x

本文链接地址:https://www.jiuchutong.com/zhishi/297832.html 转载请保留说明!

上一篇:GPT的发展历程(gpt gtp)

下一篇:【Vue】图片拉近、全屏背景实战经验总结(vue图片点击放大)

  • 个人所得税速算扣除数表
  • 什么是库存现金的盘亏
  • 采用直接转销法会在一定程度上高估了应收款项
  • 企业给员工的福利取消了可以劳动仲裁么
  • 调减加计抵减额会计分录
  • 车险退到对公账户会计分录是
  • 增值税季报还是月报
  • ktv发票可以入账吗
  • 净利润为什么要减折旧
  • 单位社保缴费基数怎么确定
  • 固定资产原价的结余额
  • 机票的差额发票可以报销吗
  • 典当行借贷属于民间借贷吗
  • 企业垫付土地补偿款
  • 经营性固定资产计入什么科目
  • 房地产企业增值税税率是多少
  • 职工福利费发票不小心抵扣了汇算清缴
  • 代扣代缴企业所得税账务处理
  • 企业注销时留抵税额怎么做账
  • 租金收入的印花税税率是多少
  • 利润负数所得税怎么算
  • 出口退税率怎么算公式是什么
  • 营业外支出汇算清缴调增填哪
  • 路由器死机的表现
  • win10我无法更改某些设置
  • 劳务报酬纳税计算器
  • 采购合同付款违约条款怎么签
  • 总公司的固定资产可以划转子公司
  • 单位保洁外包公司收费标准
  • 企业年金基金缴费必须归集到受托财产托管账户
  • PHP:pg_lo_read()的用法_PostgreSQL函数
  • 可变现净值属于资产计量属性吗
  • 潘塔纳尔湿地位于巴拉圭盆地
  • 索尔兹伯里评价
  • 税金及附加和营业收入有关系吗
  • 30多岁应该怎么说
  • 微信小程序开发零基础入门
  • 应付未付的工资属于负债吗
  • 企业补提以前年度未提的坏账准备
  • php判断是否为整数
  • sqlcode错误码100
  • 接受投资者投入的无形资产其入账价值是
  • 暂估入账的固定资产,待办理竣工决算手续后
  • asp连接mysql数据库
  • 预提费用增加在借方还是贷方
  • mysql,if
  • 人工费支付协议
  • 资产负债表与利润表的关联性可在存货与销售成本
  • 药品进销差价会计科目
  • 行政单位收取现金的规定
  • 房屋预售收入
  • 会计做账的原始凭证有哪些
  • 增值税为什么不用计提
  • 支付宝收入什么意思
  • 用友软件冲销之前凭证怎么操作
  • 停车费报账
  • 红十字会是事业编还是行政编
  • 新手学会计怎么学
  • 工业企业生产什么
  • mysql误删记录查询
  • 任务栏都不见了
  • Office 2007在Windows Vista中出现的反常字体问题的解决办法
  • win2008r2下载
  • ubuntu 16.10
  • xp系统怎样设置无线网络连接
  • linux命令pwd是什么意思
  • 为什么好不容易瘦了两斤,两天吃好了又上来了?
  • win8.1关机没反应
  • pe,翻译
  • javascript程序代码
  • jquery可以实现哪些效果
  • node.js开发指南
  • JavaScript运算符都有哪些
  • 拦截器 aop
  • 用来检测程序小错误的测试方法
  • shell脚本逐条执行
  • jquery属性选择器的基本
  • webgl fbo
  • 跨境电商出口商品结构
  • 环保信用评价等级分级情况
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设