位置: IT常识 - 正文

视听场景理解经典任务(视听结合的景物描写)

编辑:rootadmin
视听场景理解经典任务 文章目录1. 视听场景理解简介2. 主要任务2.1 Audio-visual Event Localization (AVE) 2.2 Audio-visual Video Parsing (AVVP)2.3 Audio-visual Question Answering (AVQA)2.4 Audio-visual Segmentation (AVS)2.5 Audio-visual Scene-Aware Dialog (AVSD)2.6 Audio-visual Navigation (AVN)2.7 其他视听场景理解任务2.7.1 Audio-visual Retrieval2.7.2 Audio-visual Captioning2.7.3 Audio-visual Action Recognition3.小结4.参考文献1. 视听场景理解简介

推荐整理分享视听场景理解经典任务(视听结合的景物描写),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:视听语言场景的定义,用视听语言描述一个场面,视听语言中景的作用,视听场景理解经典语录,视听结合的景物描写,视听情境,视听情境,视听语言场景的定义,内容如对您有帮助,希望把文章链接给更多的朋友!

人类感知世界涉及对多种感官数据的复杂分析,包括视觉、听觉、触觉、味觉、嗅觉以及其他感官数据。许多心理学和大脑认知研究表明,结合不同的感官数据对于人类感知至关重要。视觉和听觉作为人类感知世界最重要的两种感官,在现实世界中往往是互补的。例如,在一场音乐会场景中,同时观看乐器演出和听乐器的声音比只看或只听更能够让人们享受音乐会。乐器的视觉属性和声音属性是一种天然的对应关系,人类会无意识地将它们进行关联。因此,相对于以往的基于视觉模态的场景理解任务,联合视听两种感官信息往往比单一模态表现更准确有效。

受此启发,越来越多的研究者开始聚焦于视听场景理解任务的探索,如视听事件定位、视听视频解析、视听问答、视听分割等,本文将简单介绍一下这些任务的目标及由来,更具体的任务定义和解决方法可以参阅原论文。

2. 主要任务2.1 Audio-visual Event Localization (AVE)

视听事件(AVE)被定义为视频片段中既可见又可听的事件,具体分为3个任务:

监督式视听事件定位:预测输入视频的那个时间段具有视听事件以及该事件属于哪个类别;弱监督视听事件定位:与监督式事件定位不同的是输入的视频标签只有video-level的;事件不可知的跨模态定位:给定一个模态的事件片段,定位出另一个模态的事件片段。

如下图所示,(a)展示了一个AV事件,黄色框表示时序标注;(b)表示的是通过一个模态事件去找到对应的另一个模态事件。

图 AVE任务示意图

AVE被提出的主要动机有以下几点:

对听觉和视觉模态的联合推理是否优于对它们的独立推理?在有噪音的训练条件下,结果如何变化?如何知道一种模态帮助另一种模态?如何更好地融合两种模态的信息?如果通过一种模态的信息去定位出其对应的内容在另一个模态中的位置?

以这几个动机为出发点,设计了上述的三种定位任务。

2.2 Audio-visual Video Parsing (AVVP)

视听视频解析(AVVP)任务,旨在定位出视频中事件的时序边界,并将它们标记为可听、可见或两者兼之的事件。 如下图所示,一个10秒的视频中,狗在声音模态上的事件是4-8秒,在视觉模态上的事件是2-5秒,视听事件是4-5秒(该时间段内既能看见狗,又能听见狗叫)。

图 AVVP任务示意图

为什么要提出AVVP任务?

以往的关于视听研究往往是假设时序上的事件是关联的,但是在实际场景中,很多视频中的事件只能听见其声音却没有其对应的视觉画面,同时也有很多事件只有画面没有对应的声音,或者视听事件发生的时间并不是一致的。如视频镜头外行使的汽车和人的说话声音,这样的例子无处不在。所以这就引出了一个基本问题,即一个视频中哪些事件是可听的、哪些事件是可见的、还有哪些事件是既可听又可见的,以及我们如何有效的检测这些事件在视频中的发生的时间和位置。

要探究这个问题,就要找到相关视听事件的开始和结束的时间边界,然而由于监督式学习的任务需要大量密集的标注,成本极高。故当前的AVVP任务以弱监督学习的方式开展,即对相关的数据集(LLP)的训练集只提供video-level的标注,在训练和测试集上进行second-level的标注。

2.3 Audio-visual Question Answering (AVQA)

视听问答(AVQA)任务,旨在回答有关不同视觉对象、声音及其在视频中的关联的问题。

如下图所示的单簧管双重奏场景,当回答 “哪个单簧管先发声?” 的问题时,需要在视听场景中先定位出发声的单簧管,并在时序维度上重点聚焦于哪个单簧管先发出声音。要正确回答这个问题,本质上需要有效地对视听场景理解和时空推理。对于这个例子,若我们仅考虑基于视觉模态的 VQA 模型则很难对问题中涉及的声音信息进行处理,相反,若我们只考虑基于声音模态的 AQA 模型,同样难以对问题中涉及的空间位置信息进行处理。但是,我们可以看到同时使用听觉和视觉信息可以很容易的对场景进行理解并正确的回答上述问题。

AVQA任务示意图

AVQA提出的动机:近年来,研究人员在声音对象感知、音频场景分析、视听场景解析和内容描述等方面取得了显著进展。尽管这些方法能将视觉对象与声音关联,但它们中的大多数在复杂视听场景下的跨模态推理能力仍然有限。相比之下,人类可以充分利用多模态场景中的上下文内容和时间信息来解决复杂的场景推理任务,如视听问答任务等。现有的视觉问答(VQA)和声音问答(AQA)方法等往往只关注单一模态,从而不能很好的在真实的视音场景中进行复杂的推理任务。

2.4 Audio-visual Segmentation (AVS)

视听分割(AVS),旨在分割出发声物,而后生成发声物的精细化分割图

单声源*(Single-source)*下的视听分割多声源*(Multi-sources)*下的视听分割视听场景理解经典任务(视听结合的景物描写)

考虑到任务难易,单声源在半监督条件下进行,多声源则以全监督条件进行。

图 AVS任务示意图

AVS提出的动机:以后的视听工作取得了较大的进展,如视听匹配、视听事件定位、声源定位等。前两者作为一个分类任务,都可以归结于给定一张图像和一段音频,判断二者是否描述同一个事件/物体;声源定位想要定位到发声物体的大致区域,趋近于目标检测,但是是以热力图可视化的形式表示定位的结果。尽管这些任务都很有趣,但都不能够很好的勾勒出物体的形状,离精细化的视听场景理解似乎还差临门一脚。为此,视听分割任务提出要准确分割出视频帧中正在发声的物体全貌,即以音频为指导信号,确定分割哪个物体并得到其完整的像素级掩码图。

2.5 Audio-visual Scene-Aware Dialog (AVSD)

视听场景感知对话(AVSD)任务,即是通过使用自然语言回答用户关于动态场景的问题来进行对话。

如下图所示,智能体基于动态视觉场景、音频和历史对话(之前的对话轮次)来生成回应,其目标是开发一种能够感知时间动态的会话智能体,从而更好地理解场景并提供更准确的回应。回答此类问题需要全面了解场景中的视觉和音频信息,以及它们的时序关系,此外由于人类交流很少只有单轮对话,因此还需要了解对话的顺序,如"她"和“它”指的是什么。

图 AVSD任务示意图

AVSD提出的动机:以视觉感知为基础的对话模型需要用自然语言进行对话回答关于图像的问题,即对于给定的问题,系统需要将其响应与输入的图像以及历史对话信息进行关联,然而静态图像缺乏上下文信息,无法进行有效的场景感知和理解。此外已有的对话系统是由用户语音输入触发的,系统响应的内容受到训练数据(一组对话)限制,而且法使用基于多模态的输入(如视觉和非语音音频)来理解动态场景,因此使用此类对话系统的机器无法就周围发生的事情进行对话。故AVSD任务的提出可以充分探索真实对话场景的感知。

2.6 Audio-visual Navigation (AVN)

视听导航(AVN),即在具有视觉和声音信息的仿真3D环境中,智能体通过接受到的视觉和声音信息,导航到声源附近。

具体来说,在一个episode(一把游戏)中,智能体会出生在一个陌生环境的随机位置,同时在同一环境中的某个位置也会随机生成一个声源。 智能体在每次决策时会收到一个1秒的音频(波形形式),它的目标就是导航到目标位置。由于没有全局的地图,智能体只能通过解析音频和RGB-D的图像来完成导航任务

如下左图,展示了一个室内环境的top-down map,并且在上面绘制了声压的热力图。由于反射、吸收等声学现象的存在,智能体收到的声音中编码了整个房间的几何、结构和材料信息,并且我们可以发现,音频的变化实际上很好的反映了导航的路径。从这个角度上讲,音频实际上可以帮助设置一个中间的目标(例如该图中的门就是一个很理想的中间目标)。所以在AVN导航中的基本思路是:音频用于设置目标,RGB-D用于导航过程中的避障。

图 AVN任务示意图

AVN的动机:目前的导航任务(Object Goal Navigation,Image Goal Navigation)只利用视觉模态来做导航,虽然有Visual Language Navigation这样的导航任务,但是它们其实忽略了一个事实:在导航过程中,音频实际上扮演了一个非常重要的角色,特别是对于视障人士以及一些利用声波导航的动物,它们可以利用声音的反馈来判断空间的几何形状、遮挡物体以及它们的材料。另外,如果目标位置在可视范围之外的话,如果目标物体可以发声,那么声音会是一个很好的信息载体,因为它在一定程度上揭示了目标的相对位置(例如,可以通过手机铃声找到手机的位置)。还有一点,如果视觉模态不可靠时(例如,存在灯光闪烁,这会对视觉模态的分布产生影响,从而影响视觉encoder提取的特征),听觉信息就变得非常重要。

2.7 其他视听场景理解任务2.7.1 Audio-visual Retrieval

音视频检索任务,指从大量的音频或视频样本库中,根据用户提供的音频或视频查询,返回与之相关的其他音视频样本的任务。

该任务的目的是通过学习一个模型或算法,使其能够理解音视频数据之间的语义相似性,并能够根据查询找到最相关的样本。在实际应用中,音视频检索任务可以用于许多场景,例如音乐检索、视频检索、图像检索等,旨在提高用户的检索效率和准确性。

图 音视频检索任务示意图2.7.2 Audio-visual Captioning

视听视频描述任务是指通过对音视频内容的分析,从中提取关键信息,然后生成相应的文字描述。

该任务的目的是让机器能够像人一样理解音视频内容,并能够准确地描述出来。通常,音视频描述任务可以分为两种类型:一种是对视频进行描述,另一种是对音频进行描述。对于视频描述,可以提取视频中的对象、场景、动作等关键信息,并将其转化为自然语言描述;对于音频描述,则可以提取音频中的情感、语音内容等关键信息,并生成相应的文字描述。在实际应用中,音视频描述任务可以用于视频摘要、视频搜索、自动字幕生成、智能语音助手等领域,可以极大地提高用户的使用体验。

图 视听描述任务示意图2.7.3 Audio-visual Action Recognition

视听行为识别任务是指从视频或音频中检测和识别人类的行为。

日常生活中的很多视频同时伴随着视觉画面和声音,以往的视频行为识别研究通常只基于视觉模态信息来探索,但是由于光照、遮挡、拍摄角度等因素会严重干扰视频行为识别模型的性能,而声音作为视频动作伴随的一种天然模态信息,可以不受上述原因干扰,与视觉模态联合使用能有效的提升模型的性能。

3.小结

人类对于理解周围场景的能力是基于多种感官提供的信息的。视觉、听觉、味觉、嗅觉和触觉等感官提供不同的信息,但同时也相互补充。这种多感官的信息整合能力是人类理解周围环境的基础。例如,观看电影需要同时运用视觉和听觉来获取更全面的信息,否则无法理解电影的情节。听到救护车声音时,我们往往会自然地关注声音来源的位置,因此更容易注意到救护车的存在。设计能够理解场景的模型算法是人工智能领域中的一个基本问题。目前,视觉场景理解技术已经有了很大进展,如时序定位、视觉问答等。这些技术利用视觉算法对图像/视频进行处理,从而实现对物体、场景和事件的识别、分类和定位等。然而,这些技术通常只关注场景中的视觉信息,而忽略了其他感官提供的信息。

视觉和声音作为现实世界中天然的且重要的模态信息,如何有效的整合这两种模态信息对实现更好的场景理解有着至关重要的作用,如在视障辅助设备中,利用声音来帮助盲人理解周围环境是非常有意义的;在监控领域,利用视听信息整合技术也可以更准确地识别和跟踪目标。然而,当前视听场景理解领域还存在很多挑战。如何更好地关联视听信息、如何实现跨模态信息的推理任务等,都是需要探索的问题。因此,需要更多的研究人员和爱好者一起加入视听理解社区,共同推动这一领域的发展。

4.参考文献

[1] Y. Tian, J. Shi, B. Li, Z. Duan, and C. Xu, “Audio-visual event localization in unconstrained videos,” in Proceedings of the European Conference on Computer Vision (ECCV), 2018, pp. 247–263. [2] Y. Tian, D. Li, and C. Xu, “Unified multisensory perception: Weakly-supervised audio-visual video parsing,” in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part III 16. Springer, 2020, pp. 436–454. [3] G. Li, Y. Wei, Y. Tian, C. Xu, J.-R. Wen, and D. Hu, “Learning to answer questions in dynamic audio-visual scenarios,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19 10819 118. [4] J. Zhou, J. Wang, J. Zhang, W. Sun, J. Zhang, S. Birchfield, D. Guo, L. Kong, M. Wang, and Y. Zhong, “Audio–visual segmentation,” in Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXXVII. Springer, 2022, pp. 386–403. [5] I. Schwartz, A. G. Schwing, and T. Hazan, “A simple baseline for audio-visual scene-aware dialog,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 12 548–12 558. [6] C. Chen, U. Jain, C. Schissler, S. V. A. Gari, Z. Al-Halah, V. K. Ithapu, P. Robinson, and K. Grauman, “Soundspaces: Audio-visual navigation in 3d environments,” in Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part VI 16. Springer, 2020, pp. 17–36. [7] K. Parida, N. Matiyali, T. Guha, and G. Sharma, “Coordinated joint multimodal embeddings for generalized audio-visual zero-shot classification and retrieval of videos,” in Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, 2020, pp. 3251–3260. [8] Y. Tian, C. Guan, J. Goodman, M. Moore, and C. Xu, “Audio-visual interpretable and controllable video captioning,” in IEEE Computer Society Conference on Computer Vision and Pattern Recognition workshops, 2019. [9] R. Gao, T.-H. Oh, K. Grauman, and L. Torresani, “Listen to look: Action recognition by previewing audio,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 10 457–10 467.

本文链接地址:https://www.jiuchutong.com/zhishi/298635.html 转载请保留说明!

上一篇:app内嵌h5支付功能,跳转支付宝&微信,vue组件(h5支付功能)

下一篇:AI遮天传 ML-KNN(遮天传游戏视频)

  • airpods pro丢失了能定位找回吗(AirPods pro丢失了一只怎么办)

    airpods pro丢失了能定位找回吗(AirPods pro丢失了一只怎么办)

  • iphone11镜像翻转怎么使用(iphone11镜像翻转怎么弄)

    iphone11镜像翻转怎么使用(iphone11镜像翻转怎么弄)

  • 红米k30有OTG功能吗

    红米k30有OTG功能吗

  • iqooneo3充电速度怎么样(iqoo neo3充电速度)

    iqooneo3充电速度怎么样(iqoo neo3充电速度)

  • 微信的拍一拍翻译在哪(微信的拍一拍翻页怎么弄)

    微信的拍一拍翻译在哪(微信的拍一拍翻页怎么弄)

  • 怎么把竖屏图片变成横屏(怎么把竖屏图片等比例变成横屏)

    怎么把竖屏图片变成横屏(怎么把竖屏图片等比例变成横屏)

  • 华为手机怎样把歌曲设置为手机铃声(华为手机怎样把照片传到电脑)

    华为手机怎样把歌曲设置为手机铃声(华为手机怎样把照片传到电脑)

  • tcp的协议数据单元被称为(tcp的协议数据单元称为什么)

    tcp的协议数据单元被称为(tcp的协议数据单元称为什么)

  • wifi是什么时候出来的(wifi是什么时候在中国出现的)

    wifi是什么时候出来的(wifi是什么时候在中国出现的)

  • 原机膜该不该去掉(原机膜上可以贴钢化膜吗)

    原机膜该不该去掉(原机膜上可以贴钢化膜吗)

  • 华为手机怎么提取文字(华为手机怎么提醒红包来了)

    华为手机怎么提取文字(华为手机怎么提醒红包来了)

  • r15怎么录屏(r15如何录屏)

    r15怎么录屏(r15如何录屏)

  • 隔空投送最多传多少张照片(隔空投送最多传多少个视频)

    隔空投送最多传多少张照片(隔空投送最多传多少个视频)

  • 声卡可以用在手机上吗(声卡直接插在手机上就能用吗)

    声卡可以用在手机上吗(声卡直接插在手机上就能用吗)

  • j1900四核相当于i3几(j1900处理器相当于i几)

    j1900四核相当于i3几(j1900处理器相当于i几)

  • 手机微信群打不开怎么办(微信群打不了怎么回事)

    手机微信群打不开怎么办(微信群打不了怎么回事)

  • 抖音三角符号后面的数字代表什么(抖音三角符号后面的数字)

    抖音三角符号后面的数字代表什么(抖音三角符号后面的数字)

  • word文档不允许修改(word文档不允许修改怎么设置)

    word文档不允许修改(word文档不允许修改怎么设置)

  • 拼多多怎么强制取消订单(拼多多怎么强制注销)

    拼多多怎么强制取消订单(拼多多怎么强制注销)

  • 苹果11可以双卡双待吗(苹果11可以双卡双待吗手机)

    苹果11可以双卡双待吗(苹果11可以双卡双待吗手机)

  • 防蹭网手机里怎么设置(防蹭网手机怎么设置wifi隐藏)

    防蹭网手机里怎么设置(防蹭网手机怎么设置wifi隐藏)

  • 天猫精灵怎么播放手机音乐(天猫精灵怎么播放免费歌曲)

    天猫精灵怎么播放手机音乐(天猫精灵怎么播放免费歌曲)

  • 小米9月亮模式在哪(小米9月亮模式是真的吗)

    小米9月亮模式在哪(小米9月亮模式是真的吗)

  • 如何查询外经证缴了多少税
  • 先开发票后发货
  • 需要冲红的普通发票无法收回怎么办
  • 餐饮发票个人抬头怎么写
  • 小规模纳税人处置固定资产的税率
  • 常见的税收优惠
  • 会计凭证填制错误怎么办
  • 含有增值税的工程项目
  • 材料采购成本差异属于什么科目
  • 去税务局增加税目需要带什么资料
  • 公账发工资是即时到账吗
  • 金税盘清卡晚了一天会怎么样
  • 双倍余额折旧法
  • 个税申报所属期和所得期
  • 收到公司投入的土地使用权
  • 公司法人借款给公司怎么取出来
  • 固定资产清理账户期末有余额吗
  • 电脑qq音乐声音小怎么回事
  • 有哪些分享方式
  • 发票已经认证,发现错误了要怎么处理
  • 外商投资企业注册登记
  • 无线路由器限速怎么办
  • php r
  • 债务重组收益会计分录怎么做?
  • nw.exe是什么进程
  • 黄金期货交易要怎么样
  • 银行存放中央银行准备金是什么类科目
  • 企业如何申请进出口资质
  • 非货币资金包括哪些科目
  • 材料短缺计入
  • 物业收取停车费需要业主同意吗
  • 现金股利什么时候到账
  • 职工教育经费具体比例
  • 小微企业具体指
  • 可视化调参
  • sqlserver 死锁查询
  • 没有盈利的公司
  • 取得投资是什么意思
  • mysql怎么实现原子性
  • 金税四期上线后对个人的影响
  • 买车进项税
  • 被投资单位信息是什么
  • 物业公司转售电费增值税
  • 收不到物业费不想干了
  • 股东分派现金股利怎么算
  • 进项和销项税月底有余额吗
  • 小规模纳税人申报增值税的操作流程
  • 银行对账单上借贷方什么意思
  • 出售固定资产清理的账务处理
  • 税种工会经费
  • 什么是权责发生会计处理基础
  • sql常用语句大全 实例
  • win10怎么进u盘系统
  • 组策略0x800704ec
  • 如何使用U盘装机
  • backupnotify.exe是什么文件的进程 backupnotify进程安全吗
  • 史上最详细的mrtg(Multi Router Traffic Grapher)设置说明
  • win8的计算机在哪里
  • win 10 ie浏览器
  • 两个linux系统之间如何传文件
  • win8系统触摸板按键不能用
  • linux查找文件语句
  • java如何自定义函数
  • 深入理解bootstrap
  • exception继承
  • [置顶] 混合、反走样、雾效、多边形偏移
  • linux shell终端
  • jquery 右键菜单
  • unity动画教程
  • SQLite3中文编码 Python的实现
  • jquery实现网页全屏
  • 深入JavaScript高级语法
  • asyncio使用
  • 车辆购置税怎样交
  • 为什么增值税是销项税减进项税
  • 个体税务怎么查询
  • 汽车公司户转个人户
  • 江苏国税电子税务局官网
  • 税收征收管理与税收大数据分析
  • 河南工商年检网上申报APP
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设