【金融机器学习】第二章:复杂模型的优势——Bryan Kelly, 修大成(中文翻译)

发布于:2025-07-23 ⋅ 阅读:(32) ⋅ 点赞:(0)

【金融机器学习】第二章:复杂模型的优势——Bryan Kelly, 修大成(中文翻译)

第2章 复杂模型的优势

我们许多人的计量经济学训练都植根于"简约性原则"的传统。Box和Jenkins(1970)的模型构建方法就是典型例证,其对金融计量经济学的影响无论如何强调都不为过。在Box和Jenkins最新版预测教材¹的引言中,"简约性"被列为"模型构建的基本理念"之首:“实践中必须强调的是,我们应采用能够充分表征现象的最少参数数量”【原文强调】。

这种简约性原则似乎与现代机器学习算法采用的海量参数化方法格格不入。最前沿的GPT-3语言模型(Brown等,2020)使用了1750亿个参数。即便是Gu等(2020b)中相对精简的收益率预测神经网络,也拥有约3万个参数。对于Box-Jenkins学派传统的计量经济学家而言,如此丰富的参数化显得铺张浪费,容易导致过拟合,并可能造成样本外表现的灾难性后果。

然而近期在诸多非金融领域的研究结果与这一观点相左。在计算机视觉和自然语言处理等应用中,那些携带天文数字量级参数——且能完全拟合训练数据——的模型,往往在样本外表现最佳。Belkin(2021)在综述神经网络文献现状时指出:"技术可实现的最大规模网络,似乎始终是获得最佳性能的首选。"显然,现代机器学习已经颠覆了简约性原则。

学界正在寻找理论依据来解释巨型参数化的成功,并回答Breiman(1995)提出的尖锐问题:"为何高度参数化的神经网络不会过度拟合数据?"本章将揭示部分答案。我们借鉴统计学文献的最新进展,这些研究刻画了"超参数化"模型(参数数量远超可用训练观测值的模型)的行为特征²。

¹Box等(2015),即Box和Jenkins(1970)原著的第五版
²相关研究包括"超参数化"、"良性过拟合"和"双下降"等方向,涉及Spigler等(2019)、Belkin等(2018,2019,2020)、Bartlett等(2020)、Jacot等(2018)、Hastie等(2019)以及Allen-Zhu等(2019)的成果

2.1 机器学习模型的分析工具

Kelly等(2022a)设计了一个思想实验:设想一位分析师试图构建成功的收益率预测模型。资产收益率 R R R由如下真实模型生成:

R t + 1 = f ( X t ) + ϵ t + 1 (2.1) R_{t+1}=f(X_{t})+\epsilon_{t+1} \tag{2.1} Rt+1=f(Xt)+ϵt+1(2.1)

其中预测变量集 X X X可能为分析师所知,但真实的预测函数 f f f未知。在缺乏 f f f知识的情况下,受通用逼近理论(如Hornik等,1990)启发,分析师决定用基础神经网络逼近 f f f

f ( X t ) ≈ ∑ i = 1 P S i , t β i . f(X_t) \approx \sum_{i=1}^{P} S_{i,t} \beta_i. f(Xt)i=1PSi,tβi.

该回归中的每个特征都是原始预测变量的预定非线性变换³:

S i , t = f ~ ( w i ′ X t ) . (2.2) S_{i,t} = \tilde{f}(w_i'X_t). \tag{2.2} Si,t=f~(wiXt).(2.2)

最终,分析师估计以下近似回归:

R t + 1 = ∑ i = 1 P S i , t β i + ϵ t + 1 . (2.3) R_{t+1} = \sum_{i=1}^{P} S_{i,t} \beta_i + \epsilon_{t+1}. \tag{2.3} Rt+1=i=1PSi,tβi+ϵt+1.(2.3)

分析师拥有 T T T个训练观测值,需要决定采用何种复杂度的近似模型——即选择 P P P值。参数较少的小模型方差较低,而大 P P P值(甚至 P > T P > T P>T)的复杂模型能更好逼近真实关系。模型复杂度( P P P值)应如何选择?

令人惊讶的是,Kelly等(2022a)证明分析师应采用其算力允许的最大规模模型!样本外预测和投资组合表现的期望随模型复杂度递增⁴。为得出这一结论,Kelly等(2022a)运用了两个关键数学工具来分析复杂非线性(即机器学习)模型:基于生成非线性特征(如上述 S i , t S_{i,t} Si,t)的岭回归,以及处理 P P P相对于训练数据量较大时估计量行为的随机矩阵理论。

³权重 w i w_i wi和非线性函数 f ~ \tilde{f} f~已知的假设遵循Rahimi和Recht(2007),他们证明即使权重随机生成,通用逼近定理依然成立
⁴在高复杂度区域( P > T P>T P>T)无条件成立,在低复杂度区域只要采用适当收缩也成立。Kelly等(2022a)推导了最大化期望样本外模型表现的收缩选择

2.1.1 生成特征的岭回归

第一个建模假设⁵聚焦于遵循式(2.3)的高维线性预测模型,称为"经验模型"。式(2.3)的解释并非认为资产收益率受大量线性基础驱动因素影响,而是承认真实数据生成过程(DGP)未知,但可通过原始驱动变量 X X X的非线性展开 S S S来近似⁶。用机器学习术语来说, S S S是从原始特征 X X X衍生的"生成特征",例如通过神经网络非线性传播得到。

⁵此处高层次介绍假设,技术性假设细节参见Kelly等(2022a)
⁵如从式(2.1)推导式(2.3)所示,这几乎不失一般性,因近期多篇论文已建立高维线性模型与深度神经网络等复杂模型的等价性(Jacot等,2018;Hastie等,2019;Allen-Zhu等,2019)。为简化分析,Kelly等(2022a)专注于单一风险资产的时序预测(Didisheim等(2023)扩展至多资产面板)

该问题的决定性特征是经验模型必然存在误设。要正确设定式(2.3)需要无限级数展开,但现实中我们只能使用有限项 P P P。小 P P P模型因待估参数少而稳定(低方差),但对真实关系的近似较差(高偏差)。机器学习的基本前提是,可以利用灵活(大 P P P)模型来改进预测。其估计可能噪声较大(高方差)但近似更精确(低偏差)。在偏差-方差权衡方面,事先并不清楚哪些 P P P选择最优。作为经济学家,我们最终寻求能转化为最优经济结果(如投资者效用最大化)的偏差-方差权衡。Kelly等(2022a)对高复杂度模型的理论探索,正是为了寻找实现经济最优化的模型。

第二个建模假设选择式(2.3)的估计量为岭正则化最小二乘:

β ^ ( z ) = ( z I + T − 1 ∑ t S t S t ′ ) − 1 1 T ∑ t S t R t + 1 , (2.4) \widehat{\beta}(z)=\left(zI+T^{-1}\sum_{t}S_{t}S^{\prime}_{t}\right)^{-1}\frac{1}{T}\sum_{t}S_{t}R_{t+1}, \tag{2.4} β (z)=(zI+T1tStSt)1T1tStRt+1,(2.4)

其中 z z z为岭收缩参数。该估计量的所有细节并非论证核心——但正则化至关重要。若无正则化,当 P > T P > T P>T时式(2.4)分母奇异,不过我们也将看到它对 P < T P < T P<T β ^ ( z ) \hat{\beta}(z) β^(z)行为的重要影响。

最后,为刻画高复杂度模型对投资者的经济影响,Kelly等(2022a)假设投资者使用预测构建交易策略:

R t + 1 π = π t R t + 1 , R_{t+1}^\pi = \pi_t R_{t+1}, Rt+1π=πtRt+1,

其中 π t \pi_t πt是根据模型收益率预测缩放的风险资产头寸权重。分析中设 π t \pi_t πt等于复杂预测模型的期望样本外收益率,并以无条件夏普比率衡量投资者福利:

S R = E [ R t + 1 π ] E [ ( R t + 1 π ) 2 ] . (2.5) SR = \frac{E[R_{t+1}^\pi]}{\sqrt{E[(R_{t+1}^\pi)^2]}}. \tag{2.5} SR=E[(Rt+1π)2] E[Rt+1π].(2.5)

虽然存在其他合理的交易策略和绩效评估标准,但这是学界和业界的常见选择,具有透明度和可操作性优势。

2.1.2 随机矩阵理论

上述岭回归公式将神经网络等机器学习模型表述为线性回归。希望通过这种表示,能在 P → ∞ P \to \infty P P / T → c > 0 P/T \to c > 0 P/Tc>0时,对复杂模型的期望样本外行为做出明确描述。机器学习所需的渐近理论与标准计量经济学表征(固定 P P P T → ∞ T \to \infty T的渐近近似)不同。随机矩阵理论特别适合描述大 P P P设定下岭回归的行为。为简化记号,我们通过始终以训练数据量标准化模型参数化程度来消除 T T T:即跟踪比值 c = P / T c = P/T c=P/T,称之为"模型复杂度"。

刻画 P → ∞ P\to\infty P β ^ ( z ) \widehat{\beta}(z) β (z)行为的关键,在于信号 P × P P\times P P×P样本协方差矩阵 Ψ ^ : = T − 1 ∑ t S t S t ′ \widehat{\Psi}:=T^{-1}\sum_{t}S_{t}S^{\prime}_{t} Ψ :=T1tStSt的特征值极限分布。随机矩阵理论描述了 Ψ ^ \widehat{\Psi} Ψ 特征值的极限分布,掌握此分布足以确定岭回归的期望样本外预测性能( R 2 R^{2} R2)及相关择时策略的期望样本外夏普比率。具体而言,这些量由下式决定:

m ( z ; c ) : = lim ⁡ P → ∞ 1 P tr ⁡ ( ( Ψ ^ − z I ) − 1 ) (2.6) m(z;c):=\lim_{P\to\infty}\frac{1}{P}\operatorname{tr}\left((\widehat{\Psi}-zI)^{-1}\right) \tag{2.6} m(z;c):=PlimP1tr((Ψ zI)1)(2.6)

此为 Ψ ^ \widehat{\Psi} Ψ 特征值分布的极限Stieltjes变换。由式(2.6)可见其与岭回归的紧密联系,因Stieltjes变换涉及岭矩阵 ( Ψ ^ − z I ) − 1 (\widehat{\Psi}-zI)^{-1} (Ψ zI)1。根据广义Marcenko-Pastur定律, m ( z ; c ) m(z;c) m(z;c)的函数形式已知。由此可显式计算期望样本外 R 2 R^{2} R2、夏普比率及其对预测模型复杂度的敏感性(详见Kelly等(2022a)第3-4节)。

换言之,模型复杂度对理解模型行为至关重要。若 T T T增速快于预测变量数量(即 c → 0 c\to 0 c0),传统大 T T T固定 P P P渐近理论适用。此时模型期望样本外行为与样本内估计行为一致。这显然是不太可能且无趣的情形。有趣的情形对应数据稀缺的高度参数化机器学习模型, P / T → c > 0 P/T\to c>0 P/Tc>0,此时会涌现令人惊讶的样本外模型行为。

2.2 更大往往更好

Kelly等(2022a)提供了关于高复杂度机器学习模型及其相关交易策略性质的严格理论表述。此处我们基于其对市场收益率预测问题的校准,重点阐述这些结果的主要定性特征。具体而言,他们假设年化总收益波动率为20%,若预测者完全掌握真实函数形式和所有信号,则每月真实的预测 R 2 R^{2} R2为20%。由于复杂度阻碍模型准确捕捉真实DGP(因数据量不足以支撑重度参数化),该校准暗示的最佳可行 R 2 R^2 R2约为每月1%。我们通过考虑使用真实预测变量不同子集的实证模型来聚焦误设情形⁷。

⁷为简化起见,假设预测变量可交换,故只需考虑子集规模而无需考虑具体包含哪些预测变量

图2.1:误设模型的期望样本外预测精度
图2.1:误设模型的期望样本外预测精度

说明:根据Kelly等(2022a)命题5,岭回归的极限样本外 R 2 R^{2} R2 β ^ \widehat{\beta} β 范数随 c c c z z z的变化。校准假设 Ψ \Psi Ψ为单位矩阵, b ∗ = 0.2 b_{*}=0.2 b=0.2,真实模型复杂度为10。

在该校准中,假设未知真实DGP的复杂度 c = 10 c=10 c=10。参数 q ∈ [ 0 , 1 ] q\in[0,1] q[0,1]控制实证模型相对于真实模型的复杂度。我们分析从极简( q ≈ 0 ,   c q ≈ 0 q\approx 0,\ cq\approx 0 q0, cq0,严重误设)到高度复杂( q = 1 ,   c q = 10 q=1,\ cq=10 q=1, cq=10对应最丰富近似模型且实际为正确设定)的近似实证模型行为。低复杂度模型因待估参数少而稳定(低方差),但对真实关系近似差(高偏差)。随着 c q cq cq上升,实证模型更好逼近真实,但预测方差增加(若未正则化)。校准还考虑了不同岭惩罚参数 z z z

首先考虑普通最小二乘(OLS)估计量 β ^ ( 0 ) \widehat{\beta}(0) β (0),即式(2.4)中 z = 0 z=0 z=0的特例。当 c ≈ 0 c\approx 0 c0时模型极简,无力近似真实关系,导致 R 2 R^2 R2近乎为零。当 P P P增加并自下接近 T T T时,模型近似改进,但最小二乘估计量分母爆炸式增长,造成预测误差方差激增。如图2.1所示,当 P = T P = T P=T时模型精确拟合(“插值”)训练数据(故 c = 1 c = 1 c=1称为"插值边界"),通常认为 β ^ ( 0 ) \hat{\beta}(0) β^(0)的爆炸性行为意味着严重过拟合且无法外推至样本外。

P P P超过 T T T进入超参数化(高复杂度)区域时,参数多于观测值,最小二乘问题有多解,且回归量协方差矩阵逆无定义。但其伪逆有定义,对应最小二乘问题的特定唯一解: ( T − 1 ∑ t S t S t ′ ) + 1 T ∑ t S t R t + 1 (T^{-1} \sum_t S_t S_t') + \frac{1}{T} \sum_t S_t R_{t+1} (T1tStSt)+T1tStRt+1⁸。在众多精确拟合训练数据的解中,此解具有最小 ℓ 2 \ell_2 2范数。事实上,它等价于收缩参数趋于零时的岭估计量:

β ^ ( 0 + ) = lim ⁡ z → 0 + ( z I + T − 1 ∑ t S t S t ′ ) − 1 1 T ∑ t S t R t + 1 . \hat{\beta}(0^+) = \lim_{z \to 0^+} \left( zI + T^{-1} \sum_t S_t S_t' \right)^{-1} \frac{1}{T} \sum_t S_t R_{t+1}. β^(0+)=z0+lim(zI+T1tStSt)1T1tStRt+1.

β ^ ( 0 + ) \hat{\beta}(0^+) β^(0+)称为"无岭"回归估计量(图2.1蓝线)。当 c ≤ 1 c \leq 1 c1时,OLS即无岭估计量;当 c > 1 c > 1 c>1时,无岭情形由 z → 0 z \to 0 z0的极限定义。

⁸矩阵 A A A的Moore-Penrose伪逆 A + A^+ A+定义为:若 A ′ A A'A AA可逆则 A + = ( A ′ A ) − 1 A ′ A^+ = (A'A)^{-1} A' A+=(AA)1A;若 A A ′ AA' AA可逆则 A + = A ′ ( A A ′ ) − 1 A^+ = A'(AA')^{-1} A+=A(AA)1

出人意料的是,当模型复杂度超过1后,无岭 R 2 R^2 R2持续上升。原因是随着 c c c增大,无岭回归有更大解空间可搜索,从而能找到 ℓ 2 \ell_2 2范数更小仍能插值训练数据的beta估计。这形成一种收缩效应,将beta估计偏向零。由于这种偏差,预测方差下降而 R 2 R^2 R2提升。换言之,尽管 z → 0 z \to 0 z0,无岭解仍对最小二乘估计量进行正则化,且 c c c越大正则化越强。当 c c c极大时,期望样本外 R 2 R^2 R2转为正值。无岭最小二乘的这一特性是统计学文献新近记载的现象,仍是新兴研究课题⁹。该结果挑战了强调模型简约性的传统金融经济学教条,证明通过将模型维度推远超过样本量,可提升收益率预测精度¹⁰。

⁹参见Spigler等(2019)、Belkin等(2018,2019,2020)及Hastie等(2019)
¹⁰图2.1其余曲线展示非平凡岭收缩如何影响样本外 R 2 R^{2} R2。基本 R 2 R^{2} R2模式与无岭情形相同,但允许 z > 0 z>0 z>0可进一步提升 R 2 R^{2} R2

图2.1描述高复杂度模型的统计行为。图2.2转向其经济后果。右图显示机器学习交易策略波动率随模型复杂度的变化。策略波动率与 β ^ \widehat{\beta} β 范数及 R 2 R^{2} R2同步变动(三者都是预测误差方差的不同表征)。关键结论是,当模型复杂度超过 c = 1 c=1 c=1后,交易策略波动率持续下降。复杂度提高无岭估计量的隐含收缩效应,从而降低收益波动率(而 z > 0 z>0 z>0会进一步降低波动率)。

图2.2:择时策略的期望样本外风险-收益权衡
图2.2:择时策略的期望样本外风险-收益权衡

说明:根据Kelly等(2022a)命题5,择时策略的极限样本外期望收益、波动率和夏普比率随 c q cq cq z z z的变化。校准假设 Ψ \Psi Ψ为单位矩阵, b ∗ = 0.2 b_{*}=0.2 b=0.2,真实模型复杂度 c = 10 c=10 c=10

图2.2左图展示高复杂度模型的关键经济行为——择时策略的样本外期望收益。简单策略期望收益较低,因其对DGP的近似较差。增加模型复杂度能更接近真实关系,单调提升交易策略期望收益¹¹。

¹¹无岭情形下,复杂度增加的收益在 c = 1 c=1 c=1时达峰。当 c ≥ 1 c\geq 1 c1时无岭期望收益持平,因DGP近似改进被无岭收缩的渐增偏差恰好抵消

这对投资者福利意味着什么?图2.2下图以期望样本外夏普比率衡量效用¹²。样本外夏普比率可归结为经典的偏差-方差权衡:期望收益纯粹反映偏差效应(低复杂度模型存在模型误设偏差但无收缩偏差;高复杂度模型误设偏差小但收缩偏差大);策略波动率纯粹反映预测方差效应( c ≈ 0 c\approx 0 c0极简模型或 c ≫ 1 c \gg 1 c1超高复杂度模型均产生低方差)。鉴于偏差-方差权衡的这些模式,样本外夏普比率亦随复杂度递增,如图2.2所示。

¹²校准中将买入持有策略的夏普比率标准化为零,故图2.2的夏普比率实为基于模型预测的择时策略相对于买入持有投资者的夏普比率增益

值得将这些发现与"双下降"现象(Belkin等,2018;Hastie等,2019)相比较:当 z z z接近零时,样本外 M S E MSE MSE随模型复杂度呈非单调变化。 M S E MSE MSE双下降的镜像即无岭夏普比率的"双上升"。Kelly等(2022a)证明 c = 1 c=1 c=1处无岭夏普比率凹陷是收缩不足的假象。采用适当收缩(由Kelly等(2022a)明确刻画)后,即使在低复杂度区域,复杂度亦成为优势:“双上升"转为"持续上升”。

总之,这些结果挑战了本章开篇讨论的简约性教条。它们证明,在实证模型必然误设的现实情况下,复杂度是一种优势。这不仅体现在样本外统计性能(如Belkin等,2019;Hastie等,2019所示),也体现在样本外投资者效用的经济维度上。与传统认知相反,理论上可通过将模型参数化程度推远超过训练观测值数量,来提升机器学习投资组合的表现。

Kelly等(2022a)最后提出复杂模型使用的最佳实践建议:

“我们的结果并非鼓励随意添加预测变量,而是提倡:i) 纳入所有可能相关的预测变量;ii) 采用丰富非线性模型而非简单线性设定。即使训练数据稀缺,这样做也能带来预测和组合收益,尤其配合审慎收缩时效果更佳。”

为得出上述结论,Kelly等(2022a)施加了预测能力均匀分布于信号的假设。初看这可能显得限制过强,因许多标准预测变量不满足此假设。但该假设与(且确实受启发于)标准神经网络模型一致:如式(2.2)所示,原始特征经混合和非线性传播生成最终特征。网络训练初始化步骤本质上将生成特征 S S S的顺序随机化。此外,Kelly等(2022)、Kelly等(2022)和Didisheim等(2023)的实证工作采用称为随机特征回归的神经网络公式,确保该假设成立。

2.3 复杂度楔差

Didisheim等(2023)从多个方面拓展Kelly等(2022)的分析,提出"复杂度楔差"概念,定义为样本内与样本外表现的期望差异。为简化起见,考虑正确设定的实证模型。在 c ≈ 0 c\approx 0 c0的低复杂度环境中,大数定律适用,样本内估计收敛至真实模型。因此模型样本内表现恰好预示其期望样本外表现。即无复杂度时,样本内外行为无楔差。

但当 c > 0 c>0 c>0时,复杂度楔差显现,包含两个组成部分:复杂度会放大训练模型的样本内可预测性相对于真实模型可预测性的程度——这是传统定义的过拟合,为第一楔差成分;但高复杂度也意味着实证模型没有足够数据(相对于其参数化程度)来恢复真实模型——这是复杂度导致的大数定律失效,形成第二楔差成分(样本外表现相对于真实模型的短缺)。这种短缺可视为模型复杂度导致的"学习极限"。复杂度楔差——样本内外表现的期望差异——即过拟合与学习极限之和。

复杂度楔差对资产定价有多重深意。给定已实现的(可行)预测 R 2 R^{2} R2,可利用随机矩阵理论反推"真实"(但不可行)模型中的可预测程度。多项研究记载机器学习模型样本外收益率预测显著为正(个股层面约每月1%)。结合学习极限的理论推导,暗示真实不可行预测 R 2 R^2 R2必然高得多。同理,即使真实模型暗示存在套利(或极高夏普比率)机会,学习极限使现实投资者无法获取这些机会。Didisheim等(2023)指出,在现实实证设定中,由于复杂统计关系难以准确估计,可实现夏普比率相对真实DGP约衰减一个数量级。

Da等(2022)研究不同经济环境:套利者采用统计套利策略以最大化样本外夏普比率。这些套利者同样面临学习alpha的DGP时的统计障碍(类似此处的"复杂度")。Da等(2022)表明,无论套利者采用何种机器学习方法,在某些低信噪比环境中都无法实现不可行最优夏普比率。即使套利者采用最优可行交易策略,其夏普比率与不可行最优值间仍存在显著楔差。第4.6章将详细讨论这些论文。


网站公告

今日签到

点亮在社区的每一天
去签到