位置: IT常识 - 正文

多模态融合技术(多模态 融合)

编辑:rootadmin
多模态融合技术

推荐整理分享多模态融合技术(多模态 融合),希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:多模态融合是什么意思,多模态融合技术的优缺点,多模态融合技术百度百科,多模态融合技术的特点,多模态融合技术的特点,多模态融合技术的特点,多模态融合技术是什么,多模态融合技术百度百科,内容如对您有帮助,希望把文章链接给更多的朋友!

多模态融合的主要目标是缩小模态间的异质性差异,同时保持各模态特定语义的完整性,并在深度学习模型中取得较优的性能。

一、多模态融合架构

多模态融合架构分为:联合架构,协同架构和编解码器架构。联合架构是将单模态表示投影到一个共享语义子空间中,以便能够融合多模态特征;协同架构包括跨模态相似模型和典型相关分析,其目标是寻找协调子空间中模态间的关联关系;编解码器架构是将一个模态映射到另一个模态的多模态转换任务中。

3种融合架构在视频分类、情感分析、语音识别等领域得到广泛应用,且涉及图像、视频、语音、文本等融合内容。 

架构应用领域融合内容联合架构视频分类语音、视频、文本事件检测语音、视频、文本情绪分析语音、视频、文本视觉问答图像、文本情感分析语音、视频、文本语音识别语音、视频协同架构跨模态搜索图像、文本图像标注图像、文本跨模态嵌入图像、视频、文本转移学习图像、文本编解码器架构图像标注图像、文本视频解码视频、文本图像合成图像、文本1.1 联合架构

联合架构是将多模态空间映射到共享语义子空间中,从而融合多个模态特征,如下图所示。每个单一模态通过单独编码后,将被映射到共享子空间中,遵循该策略,其在视频分类、事件检测、情感分析、视觉问答和语音识别等多模态分类或回归任务中都表现出较优的性能。

多模态联合架构的关键是实现特征“联合”,一种较简单的方法是直接连接,即“加”联合方法,该方法在不同的隐藏层实现共享语义子空间,将转换后的各个单模态特征向量语义组合在一起,从而实现多模态融合。另一种常用方法是“乘”联合方法。

多模态联合架构的优点是融合方式简单,且共享子空间通常具备语义不变性,有助于在机器学习模型中将知识从一种模态转换到另一种模态。缺点是各单模态语义完整性不易在早期发现和处理。

1.2 协同架构

多模态协同架构是将各种单模态在一些约束的作用下实现相互协同。由于不同模态包含的信息不同,因此协同架构有利于保持各单模态独有的特征和排它性。

多模态融合技术(多模态 融合)

协同架构在跨模态学习中已经得到广泛应用,主流的协同方法是基于交叉模态相似性方法,该方法旨在通过直接测量向量与不同模态的距离来学习公共子空间。基于交叉模态相关性的方法旨在学习一个共享子空间,从而使不同模态表示集的相关性最大化。 

协同架构的优点是每个单模态都可以独立运行,这一特性有利于跨模式迁移学习,其目的是在不同模态或领域之间传递知识。其缺点是模态融合难度较大,使跨模态学习模型不容易实现,同时模型很难在两种以上的模态之间实现迁移学习。

1.3 编解码器架构

编解码器架构通常用于将一种模态映射到另一种模态的多模态转换任务中,主要由编码器和解码器两部分组成。编码器将源模态映射到向量v中,解码器基于向量v生成一个新的目标模态样本。该架构在图像标注、图像合成、视频解码等领域有广泛应用。

目前,编解码器架构重点关注共享语义捕获和多模序列的编解码问题。为有效捕获源模态和目标模态两种模态的共享语义,主流的解决方案是通过一些正则化术语保持模态之间的语义一致性,需确保编码器能正确检测和编码信息,而解码器能推理高级语义和生成语法,以保证源模态中语义的正确理解和目标模态中新样本的生成。为解决多模序列的编码和解码问题,需训练一个灵活的特征选择模块,而训练序列的编码或解码可以看作顺序决策问题,因此通常需采用决策能力强的模型和方法处理该问题,例如深度强化学习(Deep Reinforcement Learning,DRL),其是一种常用的多模序列编解码工具。 尽管多数编解码器架构只包含编码器和解码器,但也有一些架构是由多个编码器或解码器组成。

编解码器架构的优点是能够在源模态基础上生成新的目标模态样本。其缺点是每个编码器和解码器只能编码其中一种模态,并且决策模块设计复杂。

二、多模态融合方法融合方法融合类型输出时序模型典型应用 模型无关的方法早期融合分类否情感识别晚期融合回归是情感识别混合融合分类否事件检测 基于模型的方法多核学习分类否对象分类分类否情感识别图像模型分类是双模语音回归是情感识别分类否媒体分类神经网络分类是情感识别分类否双模语音回归是情感识别

将多模态融合方法分为模型无关的方法和基于模型的方法,前者不直接依赖于特定的深度学习方法,后者利用深度学习模型显式地解决多模态融合问题,例如多核学习(Multiple Kernel Learning,MKL)方法、图像模型(Graphical Model,GM)方法和神经网络(Neural Network,NN)方法等。

神经网络是目前应用最广泛的方法之一,已用于各种多模态融合任务中。视觉和听觉双模语音识别(Audio-Visual Speech Recognition,AVSR)是最早使用神经网络方法进行多模态融合的技术,目前神经网络方法已在很多领域得到了应用,例如视觉和媒体问答、手势识别和视频描述生成等,这些应用充分利用了神经网络方法较强的学习能力和分类性能。

神经网络方法通过使用循环神经网络(Recurrent Neural Network,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)来融合时间多模态信息,例如文献使用LSTM模型进行连续多模态情感识别,相对于MKL和GM方法表现出更优的性能。此外,神经网络多模态融合方法在图像字幕处理任务中表现良好,主要模型包括神经图像字幕模型、多视图模型等。神经网络方法在多模态融合中的优势是具备大数据学习能力,其分层方式有利于不同模态的嵌入,具有较好的可扩展性,但缺点是随着模态的增多,模型可解释性变差。

三、多模态对齐方法

多模态对齐是多模态融合的关键技术之一,指从两个或多个模态中查找实例子组件之间的对应关系。例如,给定一个图像和一个标题,需找到图像区域与标题单词或短语的对应关系。多模态对齐方法分为显式对齐和隐式对齐。显式对齐关注模态之间子组件的对齐问题,而隐式对齐则是在深度学习模型训练期间对数据进行潜在对齐。

对齐方法对齐类型模态类型显示对齐无监督方法视频+文本视频+语音监督方法视频+文本图像+文本 隐式对齐图像模型方法语音/文本+文本神经网络方法图像+文本视频+文本3.1 显式对齐方法

无监督方法在不同模态的实例之间没有用于直接对齐的监督标签。尽管无监督对齐方法无需标注数据,可以节省数据标注成本,但对实例的规范性要求较高,需具备时间一致性且时间上没有较大的跳跃和单调性,否则对齐性能会急剧下降。

监督方法是从无监督的序列对齐技术中得到启发,并通过增强模型的监督信息来获得更好的性能,通常可以将上述无监督方法进行适当优化后直接用于模态对齐。该方法旨在不降低性能的前提下,尽量减少监督信息,即弱监督对齐。

3.2 隐式对齐方法

图像模型方法最早用于对齐多种语言之间的语言机器翻译及语音音素的转录,即将音素映射到声学特征生成语音模型,并在模型训练期间对语音和音素数据进行潜在对齐。构建图像模型需要大量训练数据或手工运行,因此随着深度学习研究的深入及训练数据的有限,该方法已不适用。

神经网络方法是目前解决机器翻译问题的主流方法,无论是使用编解码器模型还是通过跨模态检索都表现出较好的性能。利用神经网络模型进行模态隐式对齐,主要是在模型训练期间引入对齐机制,通常会考虑注意力机制。

Reference:面向深度学习的多模态融合技术研究综述

本文链接地址:https://www.jiuchutong.com/zhishi/299546.html 转载请保留说明!

上一篇:vue的computed和watch的区别(vue中computed作用)

下一篇:lodash-es 工具库(es工具类)

  • 小米平板5怎么截图(小米平板5怎么看激活时间)

    小米平板5怎么截图(小米平板5怎么看激活时间)

  • 荣耀magic3怎么开5g(荣耀magic3怎么开热点)

    荣耀magic3怎么开5g(荣耀magic3怎么开热点)

  • 小米手机息屏时间怎么设置(苹果手机怎么息不了屏了)

    小米手机息屏时间怎么设置(苹果手机怎么息不了屏了)

  • win10如何退出安全模式(win10如何退出安全模式下重启)

    win10如何退出安全模式(win10如何退出安全模式下重启)

  • 苹果xr有hdr显示吗(苹果xr有hdr模式吗)

    苹果xr有hdr显示吗(苹果xr有hdr模式吗)

  • 自己的微信怎么添加电话号码(自己的微信怎么绑定老公的银行卡)

    自己的微信怎么添加电话号码(自己的微信怎么绑定老公的银行卡)

  • Ipad air3 可以插优盘吗(ipadair3可以插u盘吗)

    Ipad air3 可以插优盘吗(ipadair3可以插u盘吗)

  • 充电宝会损坏手机电池吗(充电宝会不会把手机充坏)

    充电宝会损坏手机电池吗(充电宝会不会把手机充坏)

  • 轻颜相机可以录多久的视频(轻颜相机可以录视频几分钟)

    轻颜相机可以录多久的视频(轻颜相机可以录视频几分钟)

  • 一个人可以实名几个淘宝号(一个人可以实名几个快手号)

    一个人可以实名几个淘宝号(一个人可以实名几个快手号)

  • 电脑一直在转圈圈卡住了怎么回事(win11重新启动电脑一直在转圈)

    电脑一直在转圈圈卡住了怎么回事(win11重新启动电脑一直在转圈)

  • iphone进水声音变沙哑(苹果进水声音变了)

    iphone进水声音变沙哑(苹果进水声音变了)

  • 苏宁退款多长时间到账(苏宁退款成功了还需要发货吗)

    苏宁退款多长时间到账(苏宁退款成功了还需要发货吗)

  • 华为nove5por有呼吸灯吗(华为nova5呼叫等待怎么设置)

    华为nove5por有呼吸灯吗(华为nova5呼叫等待怎么设置)

  • 华为耳机麦克风在哪(华为耳机麦克风坏了怎么修)

    华为耳机麦克风在哪(华为耳机麦克风坏了怎么修)

  • vue视频怎么编辑文字(vue视频编辑教程)

    vue视频怎么编辑文字(vue视频编辑教程)

  • vue可以添加几张照片(vue引入多张图片)

    vue可以添加几张照片(vue引入多张图片)

  • 小米8se电池容量(小米8se电池容量查询)

    小米8se电池容量(小米8se电池容量查询)

  • 苹果xsmax怎么加密软件(苹果xsmax怎么加内存)

    苹果xsmax怎么加密软件(苹果xsmax怎么加内存)

  • morris蠕虫病毒是利用什么(morris蠕虫病毒是利用缓冲区溢出漏洞)

    morris蠕虫病毒是利用什么(morris蠕虫病毒是利用缓冲区溢出漏洞)

  • wps选项设置在哪里(wps选项设置在哪里设置)

    wps选项设置在哪里(wps选项设置在哪里设置)

  • nbalive搜不到好友(nbalive为什么没有了)

    nbalive搜不到好友(nbalive为什么没有了)

  • 爱奇艺如何赠送vip(爱奇艺如何赠送vip会员)

    爱奇艺如何赠送vip(爱奇艺如何赠送vip会员)

  • PS如何拉伸照片背景(ps怎么拉伸图片尺寸)

    PS如何拉伸照片背景(ps怎么拉伸图片尺寸)

  • 火山视频如何添加好友(火山小视频怎么添加自己喜欢的音乐)

    火山视频如何添加好友(火山小视频怎么添加自己喜欢的音乐)

  • 表格太宽怎么打印(表格太宽怎么打印在一张纸上面)

    表格太宽怎么打印(表格太宽怎么打印在一张纸上面)

  • LangChain与大型语言模型(LLMs)应用基础教程:信息抽取

    LangChain与大型语言模型(LLMs)应用基础教程:信息抽取

  • Python中的描述符(python描述器有什么用)

    Python中的描述符(python描述器有什么用)

  • Vue-CLI 项目搭建(用vue-cli搭建项目)

    Vue-CLI 项目搭建(用vue-cli搭建项目)

  • 个人所得税专项附加扣除子女教育
  • 城市维护建设税计算公式
  • 如何区分追索权和付款请求权的区别
  • 库存商品在贷方怎么调整
  • 工程材料票抵扣比例
  • 向境外支付赔偿金需要发票么
  • 二级分支机构不具有主体生产经营职能
  • 费用化的研发支出
  • 发票入账时间规定是多久
  • 火车票增值税申报表怎么填
  • 企业所得税纳税人包括哪些类型
  • 政府补贴是什么职能
  • 出售闲置材料账务怎么做
  • 进口设备在海关处保存2年出售时 计算税怎么算
  • 财务软件怎样结转销售成本
  • 消费税征收环节下划的影响
  • 生产企业出口退税流程
  • 住宿费进项发票账务处理
  • 印花税减免性质代码和项目名称小规模
  • 一般纳税人开劳务费税率是多少2023
  • 小微企业免税销售额和未达起征点销售额区别
  • 纳税管理的主要内容是什么
  • 简易计税方法使用范围
  • 企业购进货物被没收 进项税额能否抵扣?
  • 期末未缴税额为正是什么意思
  • 材料销售的账务处理
  • 预付账款后期如何冲销
  • 住房公积金个人缴费比例
  • win10无法设置pin码怎么办
  • 税前净利润等于什么
  • 公司利润为负数 贷款
  • PHP:oci_set_client_identifier()的用法_Oracle函数
  • 桌面图标间距特别大
  • php中字符串函数
  • 增值税发票红字发票怎么开具
  • macbook怎么安装macos
  • manager's office是什么意思
  • 工程投标保证金一般是多少
  • php excute
  • 企业所得税教育经费列支范围
  • php自定义header
  • php注册功能的实现
  • 人均劳效的意义
  • ChatGPT频频发疯!马斯克警告:AI将毁灭人类
  • HTTP加密/HTTPS工作过程
  • 基于VGGNet乳腺超声图像数据集分析
  • 增值税发票退回重开期限
  • 营业外收支的账户是什么
  • 固定资产清理需要交企业所得税吗
  • 二氧化剂的使用方法
  • 国有集体企业是国企吗
  • 建筑劳务公司一年赚多少钱
  • 结转本年利润的账务处理
  • 充卡送礼品送些什么好
  • 如何计提营业税
  • 政府补贴收入的账务处理
  • 物业公司预收的物业费怎么做账
  • 成品油经销企业资质
  • 自制产品无偿赠送合法吗
  • 会计核算是否健全划分为
  • 小型企业介绍怎么写
  • 设置账本应当遵循哪些原则
  • sql如何截取字段
  • sql server重新安装步骤
  • win10预览版21277
  • freebsd安装教程
  • win7老是自动开机启动是怎么回事啊
  • centos7软件安装
  • 怎么给文件夹设置密码保护
  • xp怎么删除电脑系统
  • win7系统怎么关闭病毒防护
  • domReady的实现案例
  • 对应用进行单元测试的是
  • JavaScript入门教程
  • 深圳电子税务局税种启用在哪里
  • 党员参观红色教育基地活动的意义
  • 广州市地税局领导名单
  • 安徽省历任书记
  • 如何打印更正申请
  • 辽宁网上税务
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设