@1007477689 2020-04-18T10:18:07.000000Z 字数 7384 阅读 2042

追寻因子的足迹：分类、构造与检验

量化

【30 秒速览】本文从 实证资产定价 和 因子投资研究方法论 的角度仔细探讨了因子的分类，不同的因子组合构造方法，以及不同因子组合构造方法之间的关联，并讨论了检验因子显著性的 Fama-MacBeth 回归方法。在此基础上，我们指出了一般化的因子组合构建方法，即：先利用截面回归预测股票未来收益，再据此排序构建价差组合。

0. 文章结构：

因子的分类
因子构建之价差组合
双重排序
三重排序
截面回归
显著性检验与 FM 分析
综合性的因子构建方法
统计因子
结语

【写在前面的话】

关于具体因子研究文献的梳理和 A 股实证是我们一直的关注点，但与此同时，实证研究也需要方法论的指导。梳理因子研究的方法论并以清晰易懂的方式呈现，帮助您更好地进行自己的实证研究和理解其他研究者的成果，也是我们的目标之一。因此，有了这个基础方法论系列。这个系列文章参考了周国富教授 2019 年夏天在西南财经大学进行的关于实证资产定价的课程和我们非常喜欢的两本书：Bali, Engle, and Murray (2016) 这本《Empirical Asset Pricing》和 Lasse Pedersen (2019)的《Efficiently Inefficient》，并依据我们自己对实证资产定价和因子投资研究的理解所写。

01 因子的分类

因子分类1——性质

BlackRock 对“因子投资”的界定非常清晰精确：因子投资通过配置跨资产类别的收益驱动因素，来提升组合绩效。看来 Andrew Ang 的加盟，对他们的因子投资见解的提升立竿见影。

如同 BlackRock 的描述，因子主要有两种：宏观经济因子和风格因子。

宏观经济因子很容易理解。例如，经济增长越好，企业的发展往往也越好，那么，股票价格往往也趋于上涨。类似的，通胀变高，未来的钱更不值钱，股票和债券的表现便往往不理想。

但是，宏观经济因子的影响往往针对大类资产整体，例如：全部股票，或高股息蓝筹股，且需要较长时间才能体现，因此，实践中的应用反而没那么多。

风格因子也较为容易理解。以股票而言，“大小盘”和“价值/成长”是 A 股投资者耳熟能详的风格。动量、反转等对于量化投资者而言，也丝毫不陌生。

当然，描述风格只是构造风格因子的第一步。稍后我们将仔细讨论风格因子的构造方法。

因子分类2——构造方法

除了从因子本身的性质来区分，还可依据构造方法，将因子分为理论驱动型，经验型和统计类因子。

所谓理论驱动型因子(theory-motivated factors)，是指：由理论推导出的因子。典型例子是市场因子和基于消费的资产定价模型。

而经验型因子，又称为“直觉型因子”(intuitive factors)，是指：那些依据经验数据而构造的因子，典型的便是各种价差组合类因子(spread portfolios)。数以百计的风格因子按照这种方法而构建。

最后是统计类因子，这是“数据驱动”而得的因子。典型方法是主成分分析(PCA)和偏最小二乘(PLS)。

一个典型场景是，投研人员认为各种宏观经济指标（GDP/CPI/PPI/M2 等等）都可能对预测股票未来收益有用，但把近百个宏观经济指标一股脑地丢入预测模型，一方面数据样本可能不足，另一方面，高度相关的宏观经济指标可能导致多重共线性问题而影响预测能力。于是，先利用 PCA 提取出这些宏观经济变量的前 3 个主成分，再用这些主成分来预测股票未来收益。

当然，上述分类其实也不是严格互斥的。

例如，近年大火的 q-factor 是基于投资理论的因子，显然是理论驱动型因子。但在实际构造因子时，又采用了价差组合的做法，也便是经验型因子。

再如，如今大量财务数据可以利用。投资者在考虑估值因子时，可能不再是选择 PE/BM/DP 等估值指标之一，而是通过统计方法，提取这些指标包含的信息来构建综合性的估值指标，并利用价差组合方法构建估值因子。这便是经验型因子和统计类因子的结合。
综合来看，我们可以将因子分为以下四个主要类别。
首先是宏观经济因子，包括消费增长、通胀、债券利差等等。
其次基本面因子，包括估值、经营效率、盈利能力、财务风险、破产风险及流动性风险。当然，流动性风险也部分低与交易和量价特征有关。

再次是技术类因子，往往也称作“量价类因子”，包括：动量、反转、波动率、beta 等相关因子。

最后是另类因子。包含分析师预期因子、ESG 因子（环境、社会责任与公司治理因子）、文本情绪因子（新闻情绪、研报情绪、管理层情绪等）等。当然，现在分析师预期因子是否还应算作另类因子，有探讨空间。

02 因子构建之价差组合

最常用的因子定义方法是价差组合，即按照特定的公司特征指标排序，然后做多排名靠前的部分股票，做空排名靠后的部分股票。学术研究中大部分因子都是用这种方法构造的，我们此前的一系列研究，也主要采用这种方法来定义因子。

价差组合的具体构建方法如下：
首先，确定股票池，并将全部股票分为 N 组（通常取 N = 5 或 N = 10）。例如，为构建市值因子时，按照公司市值对股票排序，并分为 10 组。通常是按照从大到小排序，但有时为了研究的便利，也按照从小到大排序。
接下来构建价差组合（spread portfolio, 即多空股票组合），做多因子值排名靠前的股票组合，做空因子值排名靠后的股票组合。两个组合的初始金额相同。特别地，对每个组合，还需确定加权方式。最常见的是等权和市值加权。此外，也有一些新兴的基本面加权方法。
最后，每日跟踪计算价差组合的收益，直至下一个换仓日，依据最新的因子值排序，重构价差组合，并将多空组合的价值恢复至相等（即零净暴露）。
如此便可得到因子的价差组合的收益序列。
特别地，在第 1 步，有 2 个细节值得注意。
首先，将全部股票分为 N 组，不一定非得等分，虽然等分是最常见的。例如，经典的 Fama-French 三因子中，按照 BM 分组时，就是分为了 30%/40%/30% 三组，而非三等分。
其次，用于确定分组临界值的样本和构造因子的股票池并不必然相同。例如，Fama-French 在构造 size 因子时，就是按照 NYSE 股票市值中位数对全部 NYSE/AMEX/NASDAQ 股票进行分组，而非按照全部股票的市值中位数进行分组。
此外，在实践中，往往不仅仅看高低价差组合的表现，还会分析不同分层组合表现的单调性。若随着因子取值从高到低，组合平均收益也单调降低，这样的因子往往具有更好的稳定性，也更受投资者偏爱。
价差组合方法的优缺点都很明显。优势在于简单易行，而不足也很直观，简单的分层组合，不容易控制其他因素的影响。某些因子价差组合看起来表现良好，但实际上可能反映的是其他因子的收益。如果剥离掉其他因子的影响，价差组合的收益可能就不显著了。

03 双重排序法

除了经典的单变量排序分组方法（univariate sorting），双重排序（double sorting, or bivariate sorting）也很常用。
所谓“双重排序”，即：按照两个变量排序构建组合。假设按照 X 和 Y 分别分为 N 和 M 组，则共有 N*M 个组合。将 M 个 X 排名靠前的组合平均得到平均的高 X 组合，并将 M 个 X 排名靠后的组合平均得到平均的低 X 组合，最后计算高低组合收益之差，得到因子 X。用类似的方法可以得到因子 Y。

经典的 Fama-French 三因子中的 SMB (size) 和 HML (value) 就是如此构造的。

首先以 NYSE 股票市值中位数为界，将全部股票分为“”小市值（small）和“”大市值（big）；同时按照 BM ，将股票分为 30%/40%/30% 三组，分别为“”价值（value）、“”中性（medium）和“”成长（growth）。二者交叉得到 6 个组合，并进一步按下述方式得到 SMB 和 HML 因子：

特别地，在进行“双重排序”时，有一个很关键的细节，那就是两个变量间的关系：是独立排序（independent bivariate sorting）还是条件排序（dependent bivariate sorting）。

独立排序很容易理解，分别按照 X 和 Y 排序，然后取交集得到最终的组合。前述 Fama-French 的 SMB 和 HML 就是独立排序。

独立排序研究的仍是变量对股票未来收益的无条件影响。借用概率论中的全期望公式很容易理解。我们先计算不同 Y 取值下 X 因子的收益（即条件期望），再将上述收益平均得到 X 因子的无条件收益：

但独立排序可能导致某些组合包含的股票数目过少。
举个例子，假设共 1000 支股票，按照 X 和 Y 各分为 5 组，得到 25 个组合，平均每个组合包含 40 支股票。假设 X 和 Y 的相关性很高，那么，高 X 的股票大多数也有较高的 Y，因而高 X 高 Y 组合最终可能包含 120 支股票，而高 X 低 Y 组合则可能只有 10 支股票。
这样巨大的不平衡，会使得最终的因子收益受异常值影响而极度不稳定，且在实践中无法实施。在某些极端情况下，高 X 低 Y 组合甚至可能 1 支股票都没有。
与独立排序相对的，条件排序中排序的顺序很重要。
例如，一共 1000 支股票，先按照 X 分为 5 组，每组 200 支股票。再将每组股票按照 Y 分为 5 组，每组 40 支股票，共 25 个组合。接下来计算不同 X 下的 Y 因子收益，最后取平均，得到 Y 因子。
但此处不能计算 X 因子，因 X 是 Y 的控制变量。若要计算 X 因子，需先按照 Y 排序分组，再进一步按照 X 分组并计算因子。
因此，条件排序关注的是变量对股票未来收益的条件影响，尤其适用于研究在控制了可能有影响的其他变量后，是否还对股票未来收益有显著的预测能力。此外，与独立排序不同，条件排序可以保证每个组合中的股票数目合理。
当然，条件排序研究的是变量 Y 相对控制变量 X 是否有增量信息，因此，当两个变量相关性较高时，条件排序便可能不适用。例如，在控制 X 条件下按照 Y 排序分组，假设 X 和 Y 相关性很高，则此时高 X 低 Y 组合的 Y 平均来看可能仍然很高，只是略低于高 X 高 Y 组合。当然，这也意味着 Y 相对于 X 的增量信息很少。
这两种双重排序方法都是极有价值的，且各自最适用的场景有所不同。当然，如前所述，双重排序最好用于相关性并不是非常高的两个变量，否则分析结果可能有一定误导性。

04 三重排序

除此之外，近年也有部分研究采用了三重排序（triple sorting）。

一个典型例子是 HXZ (2015)。他们基于投资的 q-theory 推导出了 q-factor 模型。基于 q-theory 和一个简化的框架，他们推导出股票收益和公司盈利及投资之间的关系：

即：股票预期未来收益，与预期未来盈利正相关，与当期投资（比上总资产）负相关。换言之，当其他条件不变时，预期盈利能力强的公司，股票预期收益也越高；当其他条件不变时，当期投资越多的公司，股票预期收益则越低。

据此，HXZ (2015) 指出可依据盈利能力（ROE）和投资（投资比上总资产）做双重排序，来构造盈利能力因子和投资因子。此外，考虑到盈利能力和投资效应在小盘股中都更强，因此，HXZ (2015) 加入了 size 做三重排序，来构建因子。

具体而言，按照 “size” 、“ROE” 和 “投资”做 $2 \times 3 \times 3$ 的排序分组，得到共 18 个组合。用 9 个小市值组合和 9 个大市值组合收益之差代表 size 因子，用 6 个高 ROE 组合和 6 个低 ROE 组合收益之差代表盈利能力因子，用 6 个低投资组合和 6 个高投资组合收益之差代表投资因子。

05 截面回归

除了构造价差组合外，另一种常见做法是：直接用公司特征来表征因子暴露，然后通过回归，计算单位因子暴露带来的股票预期收益变化，以此代表因子收益。

举个例子，假设要研究 size 因子，除了上述分组构造价差组合的方法外，我们还可以直接进行如下回归来得到 size 因子溢价的估计：

其中，一共 N 支股票，R^{e}{i,t+1} 为 t+1 期股票 i 的超额收益，x{i,t} 为 t 期股票 i 的 size。由于股票市值的分布往往高度右偏，因此，一般取对数市值代表 size 。此外，在很多研究中，常常将因子在截面上标准化，以便利解释回归结果。
事实上，截面回归方法与价差组合方法是有内在关联的。回归系数可以视作按照特定权重构建的价差组合的收益。以上述股票收益关于 size 的单变量回归为例，回归系数的 OLS 估计如下：

因

因此，截面回归系数 \hat{b}_{t} 可视为由全部股票构成的多空组合的未来收益，其中组合权重依据股票的因子值（例如 size）而定。做多那些因子值高于全部股票均值的股票，并做空那些因子值低于全部股票均值的股票。更准确地讲，组合中股票权重为

特别地，若因子排序分层组合的单调性良好，则回归系数与价差组合的相关性往往更高。反之，若因子排序分层组合不具有良好的单调性，则回归系数与价差组合之间可能会有不小的差异。
因此，截面回归方法与价差组合方法及选股策略密切关联。
Barra 的因子体系也是基于这一思路设计的。以标准化的公司特征变量代表因子暴露，通过截面回归计算因子收益。此外，由于所有股票的因子暴露在 t 期都是已知的，因此，可以通过特定的权重设计，构造纯因子组合。Barra 定义的纯因子组合是指对所关注的因子暴露恰好为 1 且对所有其他控制因子的暴露都为 0 的组合。

06 显著性检验与 FM 分析

更进一步，为了检验因子溢价是否长期存在并显著，在每期末进行截面回归，得到因子溢价序列

然后计算因子溢价序列的均值、标准差和 t 统计量，检验其显著性。特别地：
均值为

标准差为

T 统计量为

通常以 t = 2.0 近似作为显著性的临界值。
此外，由于回归系数 \hat{b}_{t} 代表 t 期选股策略的收益，因此，选股策略的长期 Sharpe 比率为

可见，选股策略的 Sharpe 比率与 t 统计量有着密切关联，且小于 t 统计量。这也是很自然的。策略可能因为运气好而短期表现良好，但要在长期表现良好，就得依靠策略本身的选股能力了。
事实上，上述检验截面回归系数显著性的方法，正是经典的 Fama-MacBeth 方法，出自 Fama and MacBeth (1973)。虽然提出已有近 50 年，但由于其直观易行，仍在研究中被普遍采用。
在实践应用中，为了规避异方差和自相关的影响，往往采用 Newey-West 调整的标准误和 t 统计量。在实际计算时，有一个简单易行的方法，即用估计得到的因子收益序列对常数 1 回归，并在回归中引入异方差和自相关调整，据此得到的 t 统计量便是 Newey-West 调整后的 t 统计量。
此外，若进行 Fama-MacBeth 回归时，先用股票收益对因子收益做时间序列回归得到 beta ，再用股票收益对 beta 做截面回归，那么，由于 beta 是估计得到的，该方法会遇到所谓的 error-in-variable (EIV) 问题，需要按照 Shanken (1992) 的方法进行调整。
最后，Jegadeesh et al. (2019) 这篇文章讨论了公司特征和时序回归 beta 谁更适合作为 FM 回归分析中的解释变量，以及工具变量（IV）在 FM 回归中的作用。他们指出，相比时序回归 beta ，公司特征本身具有更强的解释力。关于这方面的详细介绍，可参见川总的雄文 Which Beta ?
当然，随着现代计量方法的发展，尤其是 GMM 的发展，可以使用 GMM 方法来估计上述问题，从而有效避免这些问题。但 GMM 模型的设定和估计都更为复杂，不如 Fama-MacBeth 来得直观，因此，Fama-MacBeth 回归方法仍经久不衰。关于 FM 分析的详细介绍，可参见川总的文章股票多因子模型的回归检验。

07
综合性的因子构建方法

更一般地，若要综合多个指标，构建综合因子，则可以结合上述方法。
以构建估值因子为例。常见的估值指标包括 EP (earnings-to-price, 即 PE 的倒数)、BM (book-to-market, 账面市值比)、DP (dividend-to-price, 股息率)和企业价值倍数(EV/EBITDA, 即企业价值比上息税折旧及摊销前净利润)。
传统做法是选择 EP/BM/DP/企业价值倍数之一来代表估值。但这些指标各自反映了估值的不同侧面，若能综合其信息，则可能可以得到更好的因子。
因此，首先用这 4 个估值指标对下一期股票收益做截面回归：

其中，上式中所有变量在 t 期都已知。然后，依据 t 期的估值指标和上述回归方程，预测 t+1期的股票收益，并据此排序构建价差组合。
事实上，前述单变量排序分组这一方法的简化。
单变量回归中，若回归系数大于 0，则股票预期收益 R^{e}_{i,t+1} 的排序与因子指标完全相同；反之，若回归系数小于 0，则股票预期收益的排序与因子指标刚好相反。因此，可省去拟合回归方程及预测的步骤，直接使用因子指标进行排序。

08 统计因子

前述因子构造方法基本都依据一定的金融逻辑而构建。统计因子则更强调“统计方法”。其最重要的应用便是：在有大量基础指标时，利用统计降维的方法，提取这些基础指标的共同信息，来构造预测变量及因子。

应用场景1

利用大量的宏观经济变量来预测未来的股票表现。由于可用的宏观经济数据非常多，而宏观经济数据往往频率较低，样本较少，因此，为了充分利用不同变量的信息，需要用统计方法提取其公共信息。

此时，常用的方法是利用主成分分析（PCA）方法，提取一系列宏观经济变量的主成分。主成分数目人为设定，也可以按照主成分解释的方差占比来确定（例如，筛选前 K 个主成分，以解释 80% 的全部宏观经济变量的方差）。但通常而言，提取的主成分数目最多不超过 5 个。

然后用提取出的主成分作为解释变量，对股票收益进行回归，拟合方程并预测资产的未来收益。接下来就同前文的步骤一致了。

应用场景2

仍然利用 PCA 方法，提取过去一段时间所有股票的主成分，以筛选出的主成分作为统计因子。剩余步骤仍然与前文一致。

应用场景3

此种情形与第 7 节的综合性因子构建方法有关。理论上，第 7 节的方法是最直观、便利的综合性因子构建方法，但是，由于不同估值指标间可能高度相关，此时，更理想的做法可能是先利用 PCA 提取不同估值因子的主成分，再用主成分来预测股票未来收益，构建多空因子组合。

09 结语

本文仔细探讨了因子的分类，不同的因子组合构造方法，以及不同因子组合构造方法之间的关联，并讨论了检验因子显著性的 Fama-MacBeth 回归方法。在此基础上，我们指出了一般化的因子组合构建方法，即：先利用“截面回归”预测股票未来收益，再据此排序构建价差组合。
具体因子的研究和实证研究固然重要，且是我们的关注重点，但方法论也很重要。毕竟，磨刀不误砍柴工。