公司新闻

预测类模型如何优化参数？

作者：admin 点击次数：531 发布时间：2025-05-30

以 Transformer 为主流的预测股票收益模型已经被广泛应用于因子构建中（测类模型如线性回归中的系数和截距，或者神经网络中的权重和偏置，还有像学习率、正则化参数这样的超参数）。如果把股票市场比作一本每天都在更新的“书”，这本书中包含了大量的股票量价及基本面信息，Transformer 模型就像是一个优秀的读者，可以记住最近很长一段时间的信息，并且理解这些信息之间的复杂联系。如一只股票的短期未来走势可能受到本身财务状况，最近的资金交易行为等因素影响，Transformer 模型可以综合这些信息，帮助预测股票短期的未来收益。Transformer 模型的优势在于可以并行地处理股票最近所有时间步上的数据，并且选择性地关注某些重要信息，即注意力机制。Transformer 的核心特点是全面依赖于注意力机制，并行学习序列的不同子空间，这种机制可以让模型从不同角度理解数据的同时，大大提高训练效率。除此之外，模型中还加入了位置编码，使模型能够利用序列的顺序；加入前馈网络有助于进一步转换注意力层的输出；加入残差连接帮助避免在深层网络中训练时的梯度消失问题。

对于模型内部的参数，常见的是梯度下降法，包括批量、随机和小批量梯度下降。比如不同梯度下降方法的优缺点，适用场景。比如批量梯度下降稳定但计算量大，随机梯度下降快但震荡，小批量是折中方案。还有优化算法，比如Adam、RMSprop、Adagrad这些自适应学习率的方法（这些内容，我们会在后续文章讲解到），可以提到它们如何自动调整学习率，加快收敛速度，避免手动调参的麻烦。然后是超参数优化，这部分可能需要更多的策略。网格搜索和随机搜索是基础，但计算量大。用笔记本跑就容易出现下面的情况。。。

贝叶斯优化更高效，利用先验知识选择参数。遗传算法和进化策略适合复杂问题，但实现复杂。自动机器学习工具如Auto-sklearn、Hyperopt，这些可以帮助自动调参，节省时间。另外，交叉验证在超参数优化中的作用也很重要，比如k折交叉验证用来评估不同参数组合的效果，防止过拟合。早停法也是一种防止过拟合的策略，同时节省训练时间。模型正则化，比如L1、L2正则化，或者dropout，这些虽然不是直接优化参数，但通过控制模型复杂度来间接影响参数优化，需要提到正则化参数的选择。特征工程和数据预处理对参数优化的影响，比如特征缩放可以加速梯度下降收敛，缺失值处理、特征选择能提升模型效果，从而减少参数优化的难度。
预测类模型在量化交易中主要分为以下两类：

直接价格预测
预测未来价格（如收盘价）或收益率（如未来N天的涨跌幅），例如：

时间序列模型：ARIMA、GARCH、状态空间模型（如卡尔曼滤波）。

机器学习模型：LSTM（长短期记忆网络）、Transformer、随机森林、梯度提升树（XGBoost/LightGBM）。

混合模型：结合传统统计方法与深度学习（如ARIMA-LSTM混合模型）。

间接信号预测
预测与交易相关的衍生信号，例如：

趋势方向：分类模型判断上涨/下跌概率（如逻辑回归、支持向量机）。

波动率预测：预测未来波动率以调整仓位（如HAR-RV模型、神经网络）。

事件驱动信号：基于新闻情感分析、财报数据预测短期市场反应。

01传统预测模型的不足之处利用量价数据输入 Transformer 模型，可进行股票收益排序的预测。数据集为股票每日量价 7 个指标+摸鱼量化量价因子库中的 53 个日频量价因子。

模型从 2013 年开始训练，2019 年开始预测。即每次训练集+验证集为 6 年，每年滚动训练一次。模型未对 2019 年以前的信号进行样本外预测，样本外从 2019 年开始可以避免未来知识的影响。数据处理及训练设置细节如下：

基础 Transformer 模型训练得到的因子选股效果较为有限。自 19 年开始对样本外预测因子进行回测，按照每周最后一个交易日因子值在下周第一个交易日按照 vwap 价格调仓，因子周频平均 RankIC 为 0.086，RankICIR0.73，年化后为 5.24。分十组双周频回测下，年化多空收益 56%，模型分组效果单调。从 RankIC 与多空收益的角度，相比于市面上的深度学习模型平均 10%左右的 RankIC，基础 Transformer 模型因子表现较为一般。

nsformer 基线模型选股效果有限的原因有三。第一，训练集+验证集 6 年的窗口可能不足以捕捉足量的历史规律，导致训练效果不够理想；第二，数据处理方面有进一步改善的空间，对输入数据做更精细的处理可以提升训练效果，这一点我们将在后文中做更细致的探讨。尽管基线模型有改进空间，但完全符合作为对照组的条件。后续实验中，我们将保留数据处理方式与训练数据长度等设定不变，以体现新模型的优势。进一步回测因子在不同宽基指数中的表现，在沪深 300 中 RankIC 仅有 4.4%，中证 500 中 RankIC5.4%，中证 1000 中 7.3%，在此 3 个宽基指数上的年化多空收益分别为 15.9%，13.7%，43.7%。

Transformer 等深度学习模型在选股中的潜在问题有二。第一，因子收益对于风格较为依赖。Transformer 模型长期在市值和估值风格上暴露较高。这里我们取Transformer 在全 A 上的多头组合做风格暴露分析，计算全 A 多头组持仓在风格因子上的均值相对全 A 风格均值的偏离。全局来看，Transformer 模型对于风格暴露依赖程度较高，但在每一个风格上波动不大，除市值风格出现过 2 次明显切换外，深度学习偏好低流动性，低波动率，大盘及小盘等特点的股票，且在动量因子上波动较为明显。

对于深度学习过于依赖风格收益，以及风格暴露可能波动过大等问题，我们在之前的文章中提出在损失函数中加入关于风格暴露的惩罚，一定程度上解决了此问题，在实际应用中，我们也可以控制因子的市值暴露以控制策略风险。
02
利用市场信息进行自动特征选择
由于传统 Transformer 的股票收益预测能力随市场状态变化明显，我们需要考虑不同市场状态下深度学习的特征选择。我们参考了 Tong Li 等于 2024 年发表的论文：MASTER: Market-Guided Stock Transformer for Stock Price Forecasting。论文中，作者提出了一个名为 MASTER（MarketGuided Stock Transformer）的新模型，用于股票价格预测，旨在捕获瞬时和跨时间的股票相关性，并利用市场信息进行自动特征选择。论文在沪深 300 与中证 800 中，利用从 2008 年到 2022 年的日频 alpha158（qlib）数据进行了训练。训练集为 2008 年第一季度到 2020 年第一季度，验证集为 2020 年第二季度，测试集为 2020 年第三季度到 2022 年第四季度。在周度的收益预测及回测下，Master 模型表现相比多个基线模型有明显提升，市场状态向量的构造如下：

市场状态经过门控机制生成特征权重。构造市场状态后，将每日市场状态（1x63 的向量）输入模型中进行门控机制建模，门控机制为全连接层加激活函数的形式，其中全连接层经过一个缩放系数 beta 后进入激活函数，再乘以 d_model重新放大，d_model为输入特征数量，本次实验中为 60，目的是平滑特征选择的重要性，使得某些特征权重不会被过度放大。

模型结构方面，论文在 Transformer 中进一步加入 2 个注意力模块，以捕捉瞬时和跨时间股票相关性。将加权后的特征输入至后续 Transformer 中，在 Transformer 中，模型对瞬时和跨时间相关性建模，更准确地捕捉股票间的动态相关性，改善了对复杂市场行为的理解。具体咨询，可以扫描二维码，关注摸鱼量化，免费加入量化学习群！