DeepAlpha最佳实践:(一)数据标准化方法研究
由sgwang创建,最终由sgwang 被浏览 311 用户
本文主要研究了量化选股场景中的数据标准化方法,分别对比了时序标准化和截面标准化方法的在量化选股模型上的效果。
主要的工作有:
一是构建DeepAlpha数据集,包含A股2011年到2022年98个量价因子的日线数据,label为股票未来5日的收益率;
二是采用基于时序的K折交叉验证方法,严格3年训练1年预测的数据划分,使研究更贴近于实际应用;
三是对比了LightGBM模型和DNN模型在不同标准化方法下的效果,发现截面标准化在DeepAlpha数据集上的表现更好;
四是将DNN模型的预测结果从2017年1月1日到2021年12月31日进行了模拟回测,基于截面标准化的方法年化收益35%,5年总收益325%,夏普率1.6。
1 背景
随着机器学习和深度学习在CV、NLP和推荐等领域取得非常成功的效果,AI在量化投资中的应用也越来越广泛。华泰金工2020年发布了AlphaNet模型,整合多因子选股中的因子生成和多因子合成步骤,AlphaNet合成因子相比传统因子具有显著的增量信息;Shihao Gu对比了机器学习和深度学习的多个算法在量化选股中的表现,神经网络模型在900个因子的选股模型中,取得最好的效果。Bigquant在2021年发布了DeepAlpha DNN神经网络选股模型,在回测中获取了8年40倍的收益。
尽管AI量化在选股的应用中取得了明显的成效,但是,我们任需要保持谨慎的态度,从因子、数据预处理、模型训练和回测的每一个环节深入研究,分析和验证影响模型性能的因素。
2 DeepAlpha选股模型
DeepAlpha短周期因子系列选股模型基于基础的量价数据,利用全连接深度网络(DNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、对抗生成网络(GAN)、ResNet、TabNet等模型学习市场的信息。模型的业务流程如下图所示:
3 研究方法
3.1 数据集
2011年到2022年,A股全市场的日频数据经过数据清洗后一共7,812,657条,包含98个基础量价因子,label为标准化的5日收益率。
因子说明:
3.2 模型
目前在时序预测领域应用比较广范的模型有:OLS、树模型和神经网络,本文采用LightGBM和DNN模型进行对照实验。
3.2.1 LightGBM
LightGBM(Light Gradient Boosting Machine)是一个实现GBDT算法的框架,支持高效率的并行训练,并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式可以快速处理海量数据等优点。
3.2.2 DNN
全连接神经网络(Deep Neural Networks,缩写DNN)是一种前向结构的人工神经网络,由多个的节点层所组成,每一层都全连接到下一层。DNN拟合能力强,训练速度快。
3.3 实验
我们利用了时序K折交叉验证方法,在2011年到2021年的的数据集上,针对因子无标准化、时序标准化和截面标准化的情况,分别训练了LightGBM和DNN模型。
模型的评估指标采用验证集的MSE、RMSE和Corr。
3.3.1 交叉验证
交叉验证方法采用时序K折交叉验证(Time series KFold),采用3年训练,1年预测的方法,具体的数据划分如下:
- [2014, 2015, 2016] [2017]
- [2015, 2016, 2017] [2018]
- [2016, 2017, 2018] [2019]
- [2017, 2018, 2019] [2020]
- [2018, 2019, 2020] [2021]
3.3.2 实验及结果
(1)实验结果
3.3.3 滚动回测
我们将模型K折交叉验证的预测结果进行了回测,回测时间从2017年1月1日到2021年12月31日。
回测的基本思想:根据模型预测收益率,买入当日排名靠前的50支股票资金管理。
相关参数:
初始资金:100万 资金管理:每只股票的最大资金占用不超过总资金的0.2% 手续费:买入0.03%,卖出:0.13% (1)因子截面标准化