基于机器学习和经验模态分解的跨期套利研究

时间：2022年01月11日分类：电子论文次数：

摘要：采用滚动经验模态分解(EMD)方法对沪深300股指期货当月和下月合约的价差波动进行分解，分别利用Elman网络、随机森林(RF)、支持向量回归(SVM)3种机器学习模型及自回归移动平均模型(ARIMA)对不同频率信号进行分析，合成最终的预测结果，并根据预测结果设计跨期套利

　　摘要：采用滚动经验模态分解(EMD)方法对沪深300股指期货当月和下月合约的价差波动进行分解，分别利用Elman网络、随机森林(RF)、支持向量回归(SVM)3种机器学习模型及自回归移动平均模型(ARIMA)对不同频率信号进行分析，合成最终的预测结果，并根据预测结果设计跨期套利策略.研究结果表明：SVM，RF和ARIMA模型的预测精确度相对Elman网络较高，所有模型均能取得较高的套利收益，将非线性模型和线性模型融合使用能够改善模型的风险控制能力;将机器学习预测与EMD分解技术相融合可以在不提高风险的同时大幅度提高模型的收益率，从而使得模型的夏普比率和索提诺比率均有较大幅度上涨;分样本检验、全IMF信号预测以及基于商品期货市场的套利分析，均证明融合EMD的机器学习模型可以获得比纯机器学习模型更优异的套利效果.研究结论有助于促进人工智能与金融学的交叉融合研究，同时也为期货投资提供了理论和现实参考.

　　关键词：机器学习;经验模态分解;跨期套利;期货投资;人工智能

机器学习

　　跨期套利是利用同一种期货品种、不同到期时间合约间价差的不寻常变动，进而实施反向交易，在两个合约间价差回归常态时进行平仓获利的投资方式.相对于股票等金融工具的买入并持有策略而言，跨期套利由于交易的是同一种期货品种不同合约之间的价差，相对风险更低.

　　相对于跨品种或者跨市场套利，跨期套利的合约价差更为稳定，因此投资的稳定性更高，风险也相对较低.跨期套利在价差超过正常值较远的时候进行反向交易，单笔利润相对于买入持有的趋势投资策略往往更低，由于期货市场具有较高的杠杆属性，且T+0的交易模式使得交易频率可以更高，致使套利交易的风险调整后收益往往更高[1-4]，致使越来越多的基金公司在实践中引入套利交易.

　　同时，套利交易与买入持有策略间的相关性极低甚至为负，因此是分散投资风险及规避尾部风险的重要手段，如2020年年初新冠肺炎疫情导致全球股票市场、债券市场、商品市场均发生了大幅回撤，如果在投资组合中加入套利交易，则可以对尾部风险进行极为有效的控制.

　　对价差的准确预测是跨期套利成功实施的关键所在，现有绝大部分文献及实际投资者均是利用价差均值回复原理的标准距离法设计策略，即当价差超过合理范围(常见的为均值±1倍或多倍标准差)的时候进行反向交易，待价差回到均值附近时进行平仓[5-7].

　　随着机器学习模型在金融预测领域应用得越来越广泛、且预测精度高，众多学者和投资者利用机器学习模型对价差进行预测，并在预测价差超过一定阈值后进行交易，从而获得套利收益.常用来进行套利交易的机器学习模型包括人工神经网络[8-12]、支持向量机[13-14]和随机森林[15]等.

　　但是，直接对价差进行预测无疑丧失了许多细节信息，如熊志斌[16]和周亮[17]对人民币汇率的研究均发现，用ARIMA模型预测线性部分、用机器学习模型预测非线性部分或残差部分能够实现对离岸人民币汇率更精准的预测.Huang等[18]提出的经验模态分解(EMD)模型在工程信号领域有着广泛的应用，该模型可以将信号分解为多个本征模函数(IMF)及残差项，每个本征模函数及残差项均有自身的特征益于分析及预测.

　　自EMD模型提出后，众多学者将该模型应用于经济问题分析，包括原油价格分析[19-20]、环境问题分析[21-23]等，相对于对原始数据的直接分析，利用分解信号进行分析的研究结果更为准确和稳健.本文拟采用EMD模型对沪深300股指期货当月合约与下月合约的价差进行分解，并利用神经网络、支持向量机、随机森林以及ARIMA模型分别对高频和低频信号进行预测，再从预测准确性及套利绩效两个方面来评估模型的优劣.

　　相较于已有期货跨期套利的文献，本文的主要创新之处在于：①通过EMD模型对原始价差变动序列进行滚动分解，再利用各机器学习模型对分信号进行预测，相对于纯机器学习预测模型，对序列信号考虑得更加周全和完整，也大幅提高了模型的预测精度及套利绩效;②通过将多个机器学习模型及线性的时间序列模型进行比较及综合，既挑选出了更适用于跨期套利的模型，同时也将线性模型和非线性模型整合，在增加模型套利绩效的同时，也增加了机器学习模型的经济解释能力.

　　1研究设计

　　1.1机器学习模型

　　1.1.1Elman网络

　　Elman神经网络是一种简单的循环神经网络，在众多学者的研究中均表现出超过普通反馈神经网络(如BP网络)的特征[12，24].Elman神经网络除了常见的输入层、隐藏层和输出层之外，在隐藏层的输入和输出之间增加了一个承接层，该模块存储了隐藏层的输入信号，再作为输入变量影响隐藏层的下期输入。

　　1.1.2随机森林

　　随机森林(RF)是一种集成学习方法，它的基本单元是决策树，每棵决策树都是一个分类器.随机森林只关注树的集成学习，在树的集成(森林)产生之后，该模型使用投票的方法来组合预测结果，将投票次数最多的类别指定为最终的输出.随机森林可以处理大量的数据，而大数据中所谓的“维数灾难”常常会让其他模型失败，同时随机森林对于大多数学习任务的误差率几乎和其他方法处于同等水平，并具有更少的过度拟合倾向.本文中随机森林采用500颗决策树进行分析.

　　1.2经验模态分解(EMD)

　　EMD是一种非线性、非平稳数据处理方法，它假定数据根据其复杂性可能同时存在多种振荡模式.EMD可以基于数据本身的局部特征，从原始时间序列提取出本征模函数(IMF)，它满足以下两个条件：①函数的极值和零交叉数相同，或最多相差1;②函数关于局部零均值是对称的.这两个条件确保IMF近似周期性的函数，并且均值为零.IMF是一种类似谐波的函数，但在不同时间具有可变的幅度和频率.

　　1.3套利模型设计

　　本文利用机器学习的预测结果来构造跨期套利策略，当模型预测下期价差与当期价差的差值大于α时，则买入当月合约，卖出下月合约;当模型预测下期价差与当期价差小于-α时，则卖出当月合约，买入下月合约;当持有套利组合且模型预测值的绝对值小于α时平仓.股指期货的杠杆是10倍，交易手续费为0.23%%，样本区间内两个合约的均价在3150附近，因此我们假定每单位交易手续费为0.15元.考虑到期货市场杠杆率较高、风险较大，当出现套利机会时，我们只采用75%的资金进行滚动套利.

　　2实证检验

　　2.1样本描述

　　为了检验机器学习融合经验模态分解的跨期套利策略的可行性，本文选择沪深300股指期货的当月连续合约和下月连续合约进行分析，由于沪深300股指期货(以下简称IF合约)2010年4月16日才上市，因此最终选择了IF当月连续和下月连续合约2010年4月16日-2020年7月31日的所有日数据进行分析，共2503个交易日.报告了两个合约在样本区间的走势，左轴为IF当月连续合约价格曲线，右轴为IF下月连续合约价格曲线.两者走势几乎一致，计算发现两者相关系数高达0.999，两者的价差在-130～70之间波动(99%置信区间)，存在着跨期套利的可行性.

　　2.2基于机器学习的预测和套利

　　2.2.1预测效果

　　采用3种机器学习方法(Elman网络、RF、SVM)及ARIMA模型对价差变动进行预测.对于机器学习模型，采用前20期的数据(t-20至t-1期)作为输入变量来预测第t期的价差;对于ARIMA则根据自相关系数(ACF)和偏自相关系数(PACF)确定模型的参数，并向前一步预测第t期的价差.所有模型均采用1000个滚动样本进行建模，即第1001个价差变动数据是利用1～1000个价差变动数据进行建模;第1002个价差变动数据是利用2～1001个价差变动数据进行建模，依次类推.

　　报告了4个模型的预测效果，可以看到SVM模型的RMSE、Theil-U指数和R2OS表现最佳;ARIMA模型的MAE和DAR表现最优;Elman模型表现相对较差，其R2OS甚至为负，说明用Elman进行预测略逊于用样本内均值进行预测的效果;RF模型虽然整体误差较SVM模型略高，但是其DAR却略优于SVM模型，这与其他很多研究相似，由于RF模型集成了多个决策树，表现出的结果更为稳健.

　　2.2.2套利分析

　　采用不同的α阈值进行套利，报告了4个模型的套利结果，其中PanelA是α=1时的套利效果，PanelB是α=4时的套利效果，PanelC是α=8时的套利效果.第2至第5列分别报告了基于Elman，RF，SVM及ARIMA模型预测结果的套利效果，为了避免单一模型进行预测时的弊端，第6列和第7列综合了RF模型和ARIMA模型预测结果进行套利.本文采用RF模型是因为其表现较为稳健，预测效果介于Elman和SVM之间;综合一个非线性的机器学习模型(RF)和一个线性的时序预测模型(ARIMA)，预期会增加套利模型的稳健性;第6列是将两个模型预测值进行平均，第7列是只有两个模型预测值都超过阈值时才进行套利.

　　2.3EMD分解及机器学习预测

　　为了更好地了解跨期价差的微观结构，提高跨期套利的绩效表现，本文采用EMD模型对原始价差变动数据进行信号分解.EMD模型将原始信号分成了10个IMF信号及1个残差信号，从IMF1-IMF10分别表示从高频到低频的本征模函数.IMF10及残差信号已经变成了一条非常平滑的曲线.由于对所有序列进行建模会加大计算机的工作量，本文后面的分析将借鉴Zhang等[22]的方法，将所有IMF合成一个高频信号和一个低频信号，其中高频信号波动剧烈，与原始信号相似性较强，而低频信号及残差信号则表现出较强的线性特征.

　　2.4分样本稳健性检验

　　为了检验研究结论的稳健性，本文将整个套利区间划分为两个时间相等的分样本，各包括3年时间，分别是2014年7月-2017年7月、2017年8月-2020年7月.报告了分样本检验结果，其中PanelA和PanelB是2014年7月-2017年7月的套利结果，PanelC和PanelD是2017年8月-2020年7月的套利结果;PanelA和PanelC仅采用了机器学习模型，PanelB和PanelD采用了机器学习与EMD相结合的套利模型(限于篇幅，同样仅报告了α=1时的套利结果).

　　无论是2017年7月以前还是以后，机器学习加EMD模型的套利风险虽然与纯机器学习模型相当，但其套利收益却要显著高于纯机器学习模型(除第一阶段RF+EMD的投资收益相对RF模型略有降低外)，从而使得机器学习加EMD模型的夏普比率和索提诺比率均显著高于纯机器学习模型，本文的研究结论稳健.相对于2017年7月之前，2017年7月之后的套利收益有所下降，套利风险也有所降低，这也间接说明随着期货市场的不断发展，市场有效性在逐步提高，从而使得套利空间有所收窄.

　　2.5EMD全分解滚动套利效果

　　均是基于EMD分解后再将多个本征模函数合成一个高频信号和一个低频信号，这样的操作方式可以极大地提高计算机的运算速度，但是也会丧失较多的信号信息，因此本文利用RF，SVM和ARIMA分别对每个本征模函数及残差信号进行预测，再综合为最终的预测值.相对于合成两个信号，这种方法利用到了更多的信息，但是运行速度慢了约5倍.表5报告了对每个分解信号单独进行预测的套利结果，其中PanelA是模型的预测偏差，PanelB是基于预测值的套利结果，同样仅报告了α=1时的套利绩效.

　　基于EMD所有信号的套利模型，RF模型和SVM模型的预测精度有所提高，ARIMA略有下降.所有模型的投资收益均有一定幅度的上升，波动率也略有上升，而下行波动率反而有所下降(除SVM模型略有上升)，因此模型的夏普比率和索提诺比率均大幅上升，同时模型的胜率也显著提高.总体来看，基于EMD所有信号预测值的套利模型相对于将信号合成高频和低频的模型，投资绩效又有了一定程度的上升，只是损失了计算机的运行速度，在实际投资过程中可能会因价格变动过快而导致实际投资收益与回测收益有一定的偏差，比较适合于较低频率及较稳定市场的套利投资.

　　3结论与讨论

　　选择IF当月连续和下月连续合约2010年4月16日-2020年7月31日的所有日数据，利用3种机器学习方法(Elman，RF，SVM)及ARIMA模型对两个合约的价差变动序列进行预测并构建套利模型.研究结果发现：

　　①SVM和ARIMA模型的预测精确度相对较高，Elman模型表现较差，而RF模型由于集成了多个弱分类器，表现出的结果较为稳健.

　　②所有模型在任何阈值下均能取得较高的套利收益，同时绝大部分模型最大回撤均能控制在20%以内，波动率均低于33%，下行波动率均低于16%，说明套利模型风险控制较好;相对于仅采用RF或ARIMA进行预测，混合模型(将预测值进行平均或作为并列条件)的风险控制更好，表现为更低的波动率、下行波动率及最大回撤，说明将非线性模型和线性模型融合使用能够改善模型的风险控制能力.

　　③将机器学习预测与EMD分解技术相融合可以在不提高风险的同时大幅提高模型的收益率，从而使得模型的夏普比率和索提诺比率均有较大幅度上升，表现最好的是EMD-ARIMA模型，其年化收益率高达96.52%，夏普比率和索提诺比率分别高达2.8549和8.2711.

　　④分样本检验、全IMF信号预测及基于商品期货市场的套利分析，均证明融合EMD的机器学习模型可以获得比纯机器学习模型更优异的套利效果.本文的研究结论不仅是对期货投资理论及人工智能方法在金融领域中应用的补充，同时也具有较强的实践价值：

　　①跨期套利是一种有效的投资策略，相对于买入持有等基于价格预测的投资策略，套利策略的风险更低，如果方法得当，收益却反而可能获得提高.同时，大量理论研究及实践均证明，商品期货策略(尤其是套利策略)与股市等投资策略的相关性极低甚至为负，因此在股票投资策略中增加跨期套利策略，可以有效降低整体投资组合的风险，从而提高投资收益率，并且可以在极端的市场风险下保护资产的安全性.

　　②机器学习模型在对非线性金融时间序列数据进行预测时具有较好的效果，但是机器学习模型完全由数据驱动，其经济基础较为薄弱，因此将其与经济基础更为稳健的线性预测模型相结合，可以在提升模型预测能力的同时，增加模型的经济解释能力.③金融时间序列具有较高的复杂性及噪声比率，采用单一模型进行预测无疑会丧失很多信息，通过EMD等信号分解模型将金融时间序列进行分解，通过趋势成分或波动成分的提取分别进行预测，可以实现对金融时间序列更为准确的预测，并进而提升跨期套利成功的几率.

　　参考文献：

　　[1]杨云飞，鲍玉昆，胡忠义，等.基于EMD和SVMs的原油价格预测方法[J].管理学报，2010，7(12)：1884-1889.

　　[2]JACOBSH，WEBERM.OntheDeterminantsofPairsTradingProfitability[J].JournalofFinancialMarkets，2015，23：75-97.

　　[3]张波，刘晓倩.基于EGARCH-M模型的沪深300股指期货跨期套利研究———一种修正的协整关系[J].统计与信息论坛，2017，32(4)：34-40.

　　[4]刘海飞，李伟，李冬昕，等.股指期货跨期套利自适应机制理论与实证———基于沪深300股指期货高频数据的证据[J].华东经济管理，2018，32(11)：102-111.

　　[5]KRAUSSC，DOXA，HUCKN.DeepNeuralNetworks，Gradient-BoostedTrees，RandomForests：StatisticalArbi-trageontheS&P500[J].EuropeanJournalofOperationalResearch，2017，259(2)：689-702.

　　[6]HAINM，HESSJ，UHRIG-HOMBURGM.RelativeValueArbitrageinEuropeanCommodityMarkets[J].EnergyEconomics，2018，69：140-154.

　　[7]邢亚丹，劳兰珺，孙谦.跨期套利收益与风险来源探究———基于沪深300股指期货高频跨期套利策略[J].投资研究，2015，34(10)：98-109.

　　作者：周亮1，陈辰2，李宁1

上一篇：图数据库在复杂网络分析中的研究与应用进展下一篇：基于可见近红外光谱的蓝莓新鲜度快速评价研究

学术咨询

让论文发表更省时、省事、省心

基于机器学习和经验模态分解的跨期套利研究

专业领域职称专题

SCI期刊目录

热门核心期刊目录

SCI论文

SSCI论文

EI论文

SCOPUS

翻译润色

期刊知识

发表指导

专业领域职称专题