位置: IT常识 - 正文

ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

编辑:rootadmin
ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

推荐整理分享ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

这是一篇ICLR2023 top 5%论文 论文链接:https://openreview.net/pdf?id=vSVLM2j9eie 代码:https://github.com/Thinklab-SJTU/Crossformer

1. Multivariate Time Series Forecasting

MTS,多变量时序数据预测。利用MTS的历史值可以预测其未来的趋势,例如心电图(ECG),脑电图(EEG)脑磁图(MEG)的诊断以及系统监测等等都是固有的多变量问题。该任务数据每个实例序列拥有多个维度,是一个d维向量和m个观测值(时间序列)的列表,如下所示数据(借鉴自综述论文:《The great multivariate time series classification bake off: a review and experimental evaluation of recent algorithmic advances》)

2. 动机

MTS的核心额外复杂性在于,区别性特征可能存在于维度之间的相互作用中,而不仅仅存在于单个序列中的自相关性中。标准的Transformer中核心self-attention可能仅仅建模了单个序列的自相关性,忽略了跨维度的依赖关系。

此外,如下图所示,当数据序列很长时,计算复杂性高,但是可以观察到,接近的数据点具有相似的注意权重!

基于此,作者提出一个分层encoder-decoder框架Crossformer.

3. Crossformer

目标:输入一段历史序列x1:T∈RT×Dx_{1:T} \in \mathbb{R}^{T\times D}x1:T​∈RT×D,预测未来的一段序列xT+1:T+τ∈Rτ×Dx_{T+1:T+\tau} \in \mathbb{R}^{\tau \times D}xT+1:T+τ​∈Rτ×D.

3.1 Hierarchical Encoder-Decoder

作者提出一个新的层次Encoder-Decoder的架构,如下所示,由左边encoder(灰色)和右边decoder(浅橘色)组成。其主要包含Dimension-Segment-Wise (DSW) embedding,Two-Stage Attention (TSA)层和Linear Projection。

Dimension-Segment-Wise (DSW) embedding:为了将输入x1:T∈RT×Dx_{1:T} \in \mathbb{R}^{T\times D}x1:T​∈RT×D进行分segment,从而减少计算复杂性。如果最后每个序列要分成LLL个segment,每个序列dmodeld_{model}dmodel​的通道数,则最后的输入记为:Z∈RL×D×dmodelZ \in \mathbb{R}^{L \times D \times d_{model}}Z∈RL×D×dmodel​.Two-Stage Attention (TSA)层:捕获cross-time和cross-dimension依赖关系。替待原来的self-attention在encoder和decoder中的位置。Linear Projection:应用于每一个decoder层的输出,以产生该层的预测。对各层预测结果进行求和,得到最终预测结果xT+1:T+τpredx^{pred}_{T+1:T+\tau}xT+1:T+τpred​. 下面主要讲解DSW和TSA如何实现的!3.2 Dimension-Segment-Wise embedding (DSW)ICLR2023《Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series》

输入x1:T∈RT×Dx_{1:T} \in \mathbb{R}^{T\times D}x1:T​∈RT×D,表明输入包含TTT个序列,每个序列有DDD个维度。如下所示,如果我们分的每个segment的长度为LsegL_{seg}Lseg​,则每个序列中可以划分出TLseg\frac{T}{L_{seg}}Lseg​T​个segment,每个序列有DDD个维度,则整个输入共包含TLseg×D\frac{T}{L_{seg}} \times DLseg​T​×D个segment,故x1:Tx_{1:T}x1:T​可以记为:x1:T={xi,d(s)∣1≤i≤TLseg,1≤d≤D}x_{1:T}=\{x^{(s)}_{i,d}|1\le i \le \frac{T}{L_{seg}}, 1 \le d \le D \}x1:T​={xi,d(s)​∣1≤i≤Lseg​T​,1≤d≤D}。在ddd维度中的第iii个segment的size记为xi,d(s)∈R1×Lsegx^{(s)}_{i,d} \in \mathbb{R}^{1 \times L_{seg}}xi,d(s)​∈R1×Lseg​,然后使用线性投影和位置嵌入将每个段嵌入到一个向量中: 其中hi,d∈Rdmodelh_{i,d} \in \mathbb{R}^{d_{model}}hi,d​∈Rdmodel​,E∈Rdmodel×LsegE \in \mathbb{R}^{d_{model} \times L_{seg}}E∈Rdmodel​×Lseg​表示可学习的映射矩阵。Ei,d(pos)∈RdmodelE^{(pos)}_{i,d} \in \mathbb{R}^{d_{model}}Ei,d(pos)​∈Rdmodel​表示在(i,d)(i,d)(i,d)位置的可学习位置嵌入。

最后,可以获得一个2D的向量数组H={hi,d∣1≤i≤TLseg,1≤d≤D}∈RTLseg×D×dmodelH=\{ h_{i,d}|1 \le i \le \frac{T}{L_{seg}},1 \le d \le D \} \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}H={hi,d​∣1≤i≤Lseg​T​,1≤d≤D}∈RLseg​T​×D×dmodel​.

3.3 Two-Stage Attention (TSA)

由上可得输入现在为:H∈RTLseg×D×dmodelH \in \mathbb{R}^{\frac{T}{L_{seg}} \times D \times d_{model}}H∈RLseg​T​×D×dmodel​,为了方便,记L=TLsegL=\frac{T}{L_{seg}}L=Lseg​T​,则输入为H∈RL×D×dmodelH \in \mathbb{R}^{L \times D \times d_{model}}H∈RL×D×dmodel​。TSA主要由cross-time stage和 cross-dimension stage组成,如下图所示。

Cross-Time Stage 对于每个维度,包含所有时间序列。因此,对于ddd维度Z:,d∈RL×dmodelZ_{:,d} \in \mathbb{R}^{L \times d_{model}}Z:,d​∈RL×dmodel​上,cross-time依赖关系可记为: 其中1≤d≤D1 \le d \le D1≤d≤D,所有维度共享MSA(multi-head self-attention).Cross-Dimension Stage 对于每个时间点,包含所有维度。因此,对于第iii时间点Zi,:time∈RD×dmodelZ^{time}_{i,:} \in \mathbb{R}^{D \times d_{model}}Zi,:time​∈RD×dmodel​ 1)如果使用标准Transformer进行,如下图所示,可以很容易得到复杂性为O(D2)\mathcal{O}(D^2)O(D2)!总共有LLL个时间segment,因此总复杂性为O(D2L)\mathcal{O}(D^2L)O(D2L). 2)作者引入router机制,每个时间点共享。如下图所示,Ri,:∈Rc×dmodelR_{i,:} \in \mathbb{R}^{c×d_{model}}Ri,:​∈Rc×dmodel​ (ccc是常数)是作为路由器的可学习向量,作为第一个MSA的query. Bi,:∈Rc×dmodelB_{i,:} \in \mathbb{R}^{c×d_{model}}Bi,:​∈Rc×dmodel​,作为第二个MSA的key和value. 由上可知,第一个MSA复杂性为O(cDL)\mathcal{O}(cDL)O(cDL),第二个MSA也是如此,因此,最终复杂性为O(2cDL)\mathcal{O}(2cDL)O(2cDL),其中2c2c2c为常量,记复杂性变为O(DL)\mathcal{O}(DL)O(DL)!!4 实验

SOTA方法对比 更多对比方法:

消融实验

参数分析

复杂性分析

可视化

运行速度对比

5. 结论提出了Crossformer,一种基于transformer的模型,利用跨维度依赖进行多元时间序列(MTS)预测。DSW (dimension - segment - wise)嵌入:将输入数据嵌入到二维矢量数组中,以保留时间和维度信息。为了捕获嵌入式阵列的跨时间和跨维度依赖关系,设计两阶段注意(TSA)层。利用DSW嵌入和TSA层,设计了一种分层编码器(HED)来利用不同尺度的信息。

在6个数据集上的实验结果展示了该方法优于之前的先进技术。

以上仅为本人小记,有问题欢迎指出(●ˇ∀ˇ●)

本文链接地址:https://www.jiuchutong.com/zhishi/298902.html 转载请保留说明!

上一篇:vue3:安装配置sass(vue3 安装)

下一篇:unplugin-auto-import 和 unplugin-vue-components(unplugin-auto-import/vite)

  • 企业网站推广十大方法(企业网站推广渠道)

    企业网站推广十大方法(企业网站推广渠道)

  • iqoo8pro怎么检测未知摄像头(iqoo8怎么看是不是正品)

    iqoo8pro怎么检测未知摄像头(iqoo8怎么看是不是正品)

  • 小米手机隐藏的软件怎么找出来(小米手机隐藏的照片在哪里找到)

    小米手机隐藏的软件怎么找出来(小米手机隐藏的照片在哪里找到)

  • cad生成轮廓线命令(autocad轮廓线)

    cad生成轮廓线命令(autocad轮廓线)

  • 小米手机垃圾短信在哪里看(小米手机里的垃圾短信在哪里,怎么删除?)

    小米手机垃圾短信在哪里看(小米手机里的垃圾短信在哪里,怎么删除?)

  • 苏康码微信怎么申请(苏康码微信怎么解绑主卡)

    苏康码微信怎么申请(苏康码微信怎么解绑主卡)

  • 抖音好友显示隐藏无效视频(抖音好友显示隐私设置)

    抖音好友显示隐藏无效视频(抖音好友显示隐私设置)

  • 荣耀x10防水吗(华为x2防水吗)

    荣耀x10防水吗(华为x2防水吗)

  • 显卡挡板怎么拆(机箱显卡挡板怎么拆)

    显卡挡板怎么拆(机箱显卡挡板怎么拆)

  • 支付宝被永久限制收款(支付宝被永久限制了收款怎么解决)

    支付宝被永久限制收款(支付宝被永久限制了收款怎么解决)

  • iphonex设置面容一直显示低一点(iphonex设置面容id不可用)

    iphonex设置面容一直显示低一点(iphonex设置面容id不可用)

  • 怎么把光盘里的视频弄到手机里(怎么把光盘里的东西拷贝到u盘里)

    怎么把光盘里的视频弄到手机里(怎么把光盘里的东西拷贝到u盘里)

  • 12306交易密码是什么(12306交易密码是什么,我从来没有设置过)

    12306交易密码是什么(12306交易密码是什么,我从来没有设置过)

  • 华为p30相机可放大多少倍(华为p30相机可以放大多少倍)

    华为p30相机可放大多少倍(华为p30相机可以放大多少倍)

  • 闲鱼账号违规会清除吗(咸鱼账号违规还能收到消息吗)

    闲鱼账号违规会清除吗(咸鱼账号违规还能收到消息吗)

  • tcp协议的主要功能(tcp协议的主要作用)

    tcp协议的主要功能(tcp协议的主要作用)

  • 本机imei条码什么意思(imei编码规则)

    本机imei条码什么意思(imei编码规则)

  • 免拼成功自己能发货吗(免拼成功是不是拼单成功)

    免拼成功自己能发货吗(免拼成功是不是拼单成功)

  • 荣耀20指纹解锁在哪里(荣耀20指纹解锁设置)

    荣耀20指纹解锁在哪里(荣耀20指纹解锁设置)

  • 快手本地视频删掉找回(快手本地保存的视频删了去哪找)

    快手本地视频删掉找回(快手本地保存的视频删了去哪找)

  • 手机刷机了能恢复数据吗(手机刷机了能恢复微信好友发的照片和文件吗)

    手机刷机了能恢复数据吗(手机刷机了能恢复微信好友发的照片和文件吗)

  • 联系号码如手机区号输0怎么填(手机电话号码如何)

    联系号码如手机区号输0怎么填(手机电话号码如何)

  • 苹果x无锁版是什么意思(iphone x无锁)

    苹果x无锁版是什么意思(iphone x无锁)

  • 华为手环3pro和4区别(华为手环3pro和4pro哪个更好)

    华为手环3pro和4区别(华为手环3pro和4pro哪个更好)

  • iphonex所有软件打不开(iphonex所有软件都打不开关机不了锁屏不了)

    iphonex所有软件打不开(iphonex所有软件都打不开关机不了锁屏不了)

  • 该内存不能为read怎么解决详情(该内存不能为read是怎么回事)

    该内存不能为read怎么解决详情(该内存不能为read是怎么回事)

  • python脚本文件的扩展名是什么(linux脚本文件编写)

    python脚本文件的扩展名是什么(linux脚本文件编写)

  • 文化事业建设费征收对象
  • 税务一证通
  • 工程招标费计入什么科目
  • 项目部电缆属于固定资产吗
  • 施工单位开具发票税务税率
  • 租赁合同交税一般交多少钱
  • 并购重组资产怎么算
  • 暂估入账的原材料有成本差异吗
  • 应收账款减少计提坏账吗
  • 单位表彰性奖金是什么
  • 母子公司往来款属于借款吗
  • 进项票不足
  • 银行罚息怎么入账
  • 股权转让如何避免缴纳个税
  • 所得税季度报表营业外收入填哪
  • 金税四期进展
  • 地价计入房产原值乘70%
  • 建筑公司材料费属于什么科目
  • 库存现金盘亏无法查明原因的分录
  • 一次性发放奖金个税怎么计算
  • 修理时换下的废品配件怎么处理?
  • 研发费用加计扣除最新政策2023
  • 公司哪些发票可以抵税
  • 耕地占用税计入无形资产吗
  • 零申报做账怎么做
  • 内部存货交易的抵消分录例题讲解
  • 应付短期租入固定资产的租金计入什么科目
  • 开红字发票后再开蓝字发票应如何入账?
  • 营改增后一般纳税人税率
  • 不予抵扣的进项税额是什么意思
  • php是面向过程还是面向对象
  • xampp如何运行php项目
  • linux如何放大字体
  • 公司购买货物
  • 公司清算债权债务如何清理
  • 公司承担责任的方式
  • 发财树叶子发黄怎样补救
  • 厂房改造支出可以计入厂房价值吗
  • 买入返售金融资产和卖出回购金融资产
  • 小规模纳税人无票收入怎么申报
  • php上传文件类型
  • php提供的字符串函数
  • php删除数据
  • 增值税怎么算出来的
  • 商品试用是否还要回收
  • 职工教育经费和职工福利费扣除比例
  • 企业开办期间费用需要开发票吗
  • 开自家车出差怎样报销
  • sqlserver查询时报00bop错误
  • 破产企业资产拍卖后,管理人仅办理产权登记未交付房屋
  • 私车公用私车的区别在哪
  • 劳务外包合同需要注意什么
  • 计提增值税附加税的账务处理
  • 企业用现金支付本企业职工工资时应
  • 规模以上企业纳税要求
  • 长期待摊费用科目怎么使用
  • 企业大股东减持股权
  • 开出地税发票(工程款)怎么做账?
  • 收到垫付款计入什么科目
  • 红字发票是怎么开的
  • 融资租入固定资产的入账价值
  • sqlserver开启远程
  • 更新最新版win11,任务栏不见了
  • windows8怎么调整亮度
  • win7电脑网络慢怎么提升
  • win10预览版21390
  • win10系统打不开此电脑和文件夹
  • windows8 应用商店
  • OpenCV-EmguCV 在 Unity3D 中的配置
  • 浏览器css3兼容
  • Node.js中的事件循环是什么意思
  • 在js里写html
  • javascript中window.event事件用法详解
  • javaScript parseInt字符转化为数字函数使用小结
  • python语言的特殊符号
  • java script
  • jq动态设置css
  • jQuery+ajax简单实现文件上传的方法
  • 互联网服务业有哪些行业
  • 广东省国家税务局电子发票系统,网络设置
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设