0 引言
多元时间序列广泛存在于工业、气象、医学
[1-3]
等多个领域. 时间序列分析利用时间序列数据、应用
数理统计等方法来挖掘系统潜在信息,揭示系统未来发展规律,是研究系统演化机理、建立系统模型的重
要手段. 相较于单变量时间序列,多元时间序列往往包含更加丰富的系统信息,能够更加准确地揭示系统
演化规律. 但是,多变量系统变量间的影响关系更加复杂,数据中难免会存在着与预测对象不相关的无关
变量以及对预测对象作用相同或相似的冗余变量. 无关变量和冗余变量不仅会增加预测模型建立的难度,
还会延长训练时间,对模型的预测效果产生负面的影响
[4]
. 因此,研究时间序列变量间的影响关系,为模
型选择合适的输入变量具有重要的研究意义.
因果关系分析已经广泛应用于揭示多变量系统间的相互影响关系,可以有效识别复杂系统中无关变
量和冗余变量. 在多变量时间序列的建模预测中,因果关系解释了因变量对于目标变量的影响关系. 通过
因果关系分析可以有效地剔除无关和冗余变量,为模型选择合适的输入,达到建立准确的预测模型、提高
预测精度的效果.
Granger 因果
[5]
是一种常用的因果关系分析方法. 它通过建立线性自回归(vector autoregressive,
VAR)模型来揭示变量间的相互影响关系. Grange 因果基于可预测思想:对于两个时间序列 X 和 Y,如果
X 历史信息的加入有助于减少 Y 的预测误差,则可以说存在 X→Y 的 Granger 因果关系. Granger 因果一
经提出就受到了学者们的广泛关注
[6]
. 但由于其只适用于二变量线性因果关系分析,具有很大局限性,因
此国内外学者提出了大量改进模型
[7]
. 针对多元时间序列因果关系分析,Geweke 等向 VAR 模型中加入条
件变量,提出了条件 Granger 因果(conditional Granger causality,CGC)模型
[8]
,可以有效区分直接和间
接因果关系. Siggiridou 等在条件 Granger 因果模型的基础上,采用 Backward-in-time 方法对每个变量的
滞后阶数进行限制选择,提出了 mBTS-CGCI(modify backward-in-time selection CGCI,mBTS-CGCI)方
法
[9]
. 有效降低了 VAR 的模型阶数,可以实现高维时间序列的因果关系分析. 然而,由于条件 Granger 因
果模型涉及大量参数估计,面对大规模数据集时存在较大困难. 另外,在模型求解时利用最小二乘方法求
解得到的解并不稀疏. 而 Lasso 回归通过添加 l
1
范数惩罚项,收缩回归系数,可以产生稀疏的变量选择结
果. 因此 Arnold 等
[10]
应用 Lasso 回归结合 Granger 因果模型,提出了 Lasso-Granger 因果模型(Lasso-
GC),该方法通过建立一个回归模型就可以实现系统所有变量的因果关系分析,极大地降低了计算复杂度.
此后,Lasso-GC 及其改进模型被广泛应用于因果关系分析
[11]
.
随着研究的深入,学者们发现非线性系统广泛应用于各个领域. 而基于 VAR 模型的线性 Granger
因果模型可能无法准确获取非线性系统变量间的内在影响关系. 因此,研究学者也提出了大量非线性
Granger 因果改进模型. Ancona 等基于 Granger 因果关系的预测思想,提出基于径向基函数的非线性
Granger 因果模型
[12]
,实现了二变量的非线性因果关系分析. Marinazz 等
[13]
提出基于核方法的 Granger
因果(kernel Granger causality,KGC)模型. 该模型应用核函数将原始数据进行非线性映射,在再生核
Hilbert 空间(reproducing kernel Hilbert space,RKHS)中进行 Granger 因果关系分析. 除了基于核方法的
非线性 Granger 因果模型,还有基于 Copula 函数的 Granger 因果模型
[14]
、基于神经网络的 Granger 因
果模型
[15]
等. 此外,有学者基于信息理论,提出了条件熵
[16]
、基于混合嵌入的偏互信息(partial mutual
information from mixed embedding,PMIME)
[17]
等因果关系分析方法. 它们都能有效地分析非线性系统中
变量间的相互作用关系. 但这些基于信息理论的因果分析方法涉及概率密度函数的计算,当数据维度增加
或样本量较大时,大规模数据的概率密度函数计算将变得异常困难,并且其计算量会成倍增加. 因此,随
评论0
最新资源