预测类模型如何优化参数?
作者:admin 点击次数:531 发布时间:2025-05-30
以 Transformer 为主流的预测股票收益模型已经被广泛应用于因子构 建中(测类模型如线性回归中的系数和截距,或者神经网络中的权重和偏置,还有像学习率、正则化参数这样的超参数)。如果把股票市场比作一本每天都在更新的“书”,这本书中包含了大量的股票量价及基本面信息,Transformer 模型就像是一个优秀的读者,可以记住最近很长一段时间的信息,并且理解这些信息之间的复杂联系。如一只股票的短期未来走势可能受到本身财务状况,最近的资金交易行为等因素影响,Transformer 模型可以综合这些信息,帮助预测股票短期的未来收益。Transformer 模型的优势在于可以并行地处理股票最近所有时间步上的数据,并且选择性地关注某些重要信息,即注意力机制。Transformer 的核心特点是全面依赖于注意力机制,并行学习序列的不同子空间,这种机制可以让模型从不同角度理解数据的同时,大大提高训练效率。除此之外,模型中还加入了位置编码,使模型能够利用序列的顺序;加入前馈网络有助于进一步转换注意力层的输出;加入残差连接帮助避免在深层网络中训练时的梯度消失问题。
对于模型内部的参数,常见的是梯度下降法,包括批量、随机和小批量梯度下降。比如不同梯度下降方法的优缺点,适用场景。比如批量梯度下降稳定但计算量大,随机梯度下降快但震荡,小批量是折中方案。还有优化算法,比如Adam、RMSprop、Adagrad这些自适应学习率的方法(这些内容,我们会在后续文章讲解到),可以提到它们如何自动调整学习率,加快收敛速度,避免手动调参的麻烦。然后是超参数优化,这部分可能需要更多的策略。网格搜索和随机搜索是基础,但计算量大。用笔记本跑就容易出现下面的情况。。。

贝叶斯优化更高效,利用先验知识选择参数。遗传算法和进化策略适合复杂问题,但实现复杂。自动机器学习工具如Auto-sklearn、Hyperopt,这些可以帮助自动调参,节省时间。另外,交叉验证在超参数优化中的作用也很重要,比如k折交叉验证用来评估不同参数组合的效果,防止过拟合。早停法也是一种防止过拟合的策略,同时节省训练时间。模型正则化,比如L1、L2正则化,或者dropout,这些虽然不是直接优化参数,但通过控制模型复杂度来间接影响参数优化,需要提到正则化参数的选择。特征工程和数据预处理对参数优化的影响,比如特征缩放可以加速梯度下降收敛,缺失值处理、特征选择能提升模型效果,从而减少参数优化的难度。
预测类模型在量化交易中主要分为以下两类:
直接价格预测
预测未来价格(如收盘价)或收益率(如未来N天的涨跌幅),例如:
时间序列模型:ARIMA、GARCH、状态空间模型(如卡尔曼滤波)。
机器学习模型:LSTM(长短期记忆网络)、Transformer、随机森林、梯度提升树(XGBoost/LightGBM)。
混合模型:结合传统统计方法与深度学习(如ARIMA-LSTM混合模型)。
间接信号预测
预测与交易相关的衍生信号,例如:
趋势方向:分类模型判断上涨/下跌概率(如逻辑回归、支持向量机)。
波动率预测:预测未来波动率以调整仓位(如HAR-RV模型、神经网络)。
事件驱动信号:基于新闻情感分析、财报数据预测短期市场反应。
01传统预测模型的不足之处利用量价数据输入 Transformer 模型,可进行股票收益排序的预测。数据集为股票每日量价 7 个指标+摸鱼量化量价因子库中的 53 个日频量价因子。

模型从 2013 年开始训练,2019 年开始预测。即每次训练集+验证集为 6 年,每年滚动训练一次。模型未对 2019 年以前的信号进行样本外预测,样本外从 2019 年开始可以避免未来知识的影响。数据处理及训练设置细节如下:

基础 Transformer 模型训练得到的因子选股效果较为有限。自 19 年开始对 样本外预测因子进行回测,按照每周最后一个交易日因子值在下周第一个交易日 按照 vwap 价格调仓,因子周频平均 RankIC 为 0.086,RankICIR0.73,年化后 为 5.24。分十组双周频回测下,年化多空收益 56%,模型分组效果单调。从 RankIC 与多空收益的角度,相比于市面上的深度学习模型平均 10%左右的 RankIC,基础 Transformer 模型因子表现较为一般。
nsformer 基线模型选股效果有限的原因有三。第一,训练集+验证集 6 年的窗口可能不足以捕捉足量的历史规律,导致训练效果不够理想;第二,数据处理方面有进一步改善的空间,对输入数据做更精细的处理可以提升训练效果,这一点我们将在后文中做更细致的探讨。尽管基线模型有改进空间,但完全符合作为对照组的条件。后续实验中,我们将保留数据处理方式与训练数据长度等设定不变,以体现新模型的优势。进一步回测因子在不同宽基指数中的表现,在沪深 300 中 RankIC 仅有 4.4%,中证 500 中 RankIC5.4%,中证 1000 中 7.3%,在此 3 个宽基指数上的年化多空收益分别为 15.9%,13.7%,43.7%。


Transformer 等深度学习模型在选股中的潜在问题有二。第一,因子收益对于风格较为依赖。Transformer 模型长期在市值和估值风格上暴露较高。这里我们取Transformer 在全 A 上的多头组合做风格暴露分析,计算全 A 多头组持仓在风格因子上的均值相对全 A 风格均值的偏离。全局来看,Transformer 模型对于风格暴露依赖程度较高,但在每一个风格上波动不大,除市值风格出现过 2 次明显切换外,深度学习偏好低流动性,低波动率,大盘及小盘等特点的股票,且在动量因子上波动较为明显。
对于深度学习过于依赖风格收益,以及风格暴露可能波动过大等问题,我们在之前的文章中提出在损失函数中加入关于风格暴露的惩罚,一定程度上解决了此问题,在实际应用中,我们也可以控制因子的市值暴露以控制策略风险。
02
利用市场信息进行自动特征选择
由于传统 Transformer 的股票收益预测能力随市场状态变化明显,我们需要考虑不同市场状态下深度学习的特征选择。我们参考了 Tong Li 等于 2024 年发表的论文:MASTER: Market-Guided Stock Transformer for Stock Price Forecasting。论文中,作者提出了一个名为 MASTER(MarketGuided Stock Transformer)的新模型,用于股票价格预测,旨在捕获瞬时和跨时间的股票相关性,并利用市场信息进行自动特征选择。论文在沪深 300 与中证 800 中,利用从 2008 年到 2022 年的日频 alpha158(qlib)数据进行了训练。训练集为 2008 年第一季度到 2020 年第一季度,验证集为 2020 年第二季度,测试集为 2020 年第三季度到 2022 年第四季度。在周度的收益预测及回测下,Master 模型表现相比多个基线模型有明显提升,市场状态向量的构造如下:

市场状态经过门控机制生成特征权重。构造市场状态后,将每日市场状态(1x63 的向量)输入模型中进行门控机制建模,门控机制为全连接层加激活函数的形式,其中全连接层经过一个缩放系数 beta 后进入激活函数,再乘以 d_model重新放大,d_model为输入特征数量,本次实验中为 60,目的是平滑特征选择的重要性,使得某些特征权重不会被过度放大。

模型结构方面,论文在 Transformer 中进一步加入 2 个注意力模块,以捕 捉瞬时和跨时间股票相关性。将加权后的特征输入至后续 Transformer 中,在 Transformer 中,模型对瞬时和跨时间相关性建模,更准确地捕捉股票间的动态 相关性,改善了对复杂市场行为的理解。具体咨询,可以扫描二维码,关注摸鱼量化,免费加入量化学习群!
日内高频策略部分代码展示:
总结一下,我们目前的创新因子如下:
下期我们再见!我们会在学习群每日发布量化信号,让摸鱼学员每天及时获得量化信号进行跟踪和测试,欢迎加入我们的学习群,联系客服就可以免费加入!