在上一章中,作者介绍了最基本的择时策略以及简单的一次性优化过程。作为与择时策略同样重要的选股策略,其在横截面上的作用与择时策略在时间轴上的作用是量化交易策略的两个重要方向。在这一章中,作者就向读者介绍最基本的量化选股策略是如何构建起来的,同时引入一些相应的实际案例用以说明。与上一章一样,这里所谓的最基本的选股策略,指的也是只判断买卖、不涉及仓位优化的选股策略,或者更贴切地说,是在挑选了合适的股票之后,只简单分配资金、不做具体配比优化的选股策略。图5-1通过灰色区域说明了基本的选股策略在研发流程中所处的位置。由于不考虑风险的问题,因此选股策略完全是通过判断收益情况来挑选股票的。同样的,为了给读者提供较为清晰易懂的量化选股策略以供入门,因此会在策略的优化过程中使用全样本数据进行简单的优化,进而产生出未来信息的问题。不过对于单因子选股策略和多因子选股策略而言,未来信息问题的表现情况不尽相同,在后面的内容中会具体说明。
单因子选股是整个因子选股策略框架的基础。一方面,单因子选股可以直接反映该因子的获利能力,如果单因子选股策略的收益情况达到要求,是可以直接用来进行策略交易的;另一方面,单因子选股的过程实际上与因子挑选密切相关,在大多数情况下,只有在单因子选股过程中能获得一定收益的因子, 才有理由被纳人多因子选股策略的考量之中。其实相较于多因子选股策略的模型,单因子选股策略非常的简单直接,图5-2给出了一个最为粗略的单因子选股策略框架,在决定选股的时间点上,通过分类器来判断因子的取值是否符合一定条件,如果符合则将股票选入,在下一期持有。
在这样的框架下,选股策略在表面上并没有涉及对后一期股票收益的预测,也没有使用一般意义 下的最优化手段。不过就作者的看法,预测在分类时已经暗含其中,测试不同因子的过程也可以被看作在实践中,因子选股已经是一个相对成熟而且大致框架较为固定的策略,同时存在一个业界从业人员都较为认同的策略体系,本书作为一个以介绍策略框架为主要目标的作品,也无意去变动或复杂化这样一个体系框架, 因此在内容上基本介绍最简单、最受认可的策略构建方法。而操作单因子选股策略时,需要考虑到将单个因子融合进多因子策略的问题,因此在分类.判别的部分不宜过于复杂,甚至可以说存在一个较为固定的判别模式。简单而言,就是在交易决策时按照当前因子影响力的大小进行排序,然后选人排序前列的股票,排序选择顺序还是逆序则由下一期收益率与因子的具体关系决定,最后保证选取股票的收益率相对更高即可。图5-3给出了这样一个基本的单因子选股策略框架。
多因子选股策略方面,本书也选用一个较为成熟的策略框架来进行介绍。首先假定已经选出了N个有效因子,分别用看到龙标记,然后针对每一只股票,用这N个因子的值来预测下一期或者下一段时间的收益率。这里选用简单的线性回归来完成預测工作,如下式所示:
式中,r,是时刻1的股票收益率; fun.r-1是1-1 时刻下第n个因子的大小; a和b。是回归式中的系数。
进行交易决策的时间点为1时刻初、1-1 时刻末,因此回归式左边为预测值,回归式右边的所有成分则都是决策点下的已知信息。在预测出每一只股票在时刻↑的收益率之后,按照收益预期值从大到小进行排序,然后选取排在前列的股票作为当前可以建仓的股票。
需要特别说明的是,在某些量化交易策略的相关资料当中,会把对于不同股票而言取值一致的回归系数b,称为风险因子,而将具体的股票特征值f -称为各只股票在因子上的溢价。这主要是因为学术界在套利定价理论等研究的基础上,形成了一种约定俗成的叫法,其中风险因子对于所有资产应该保持一致,面因子溢价则各有不同。不过在量化选股策略中,对比本节所使用的称谓,这种叫法以及其他一些叫法并不是非常直观,因此不予以使用。如果读者在阅读其他资料时碰到不一样的名称,只需对号入座弄清准确含义即可。a和b,等参数的优化和拟合,书中使用的是法玛等人给出的一种线性回归估计方法。如果可以获得T个时间段的因子数据以及相应的下-期股票收益率数据,那么对于上面的线性回归式而言,一共可以进行T次估计,表示如下:
相比起上一个回归式,a和bn的形式略有变动。ar 和bn, ,代表一共可以得到T组a和b,的参数估计值。然后将T个a,求平均值,就是参数a的拟合结果;分别将T个bn, ,求平均,则得到N个bn各自的拟合结果。
图5-4展示了基本的多因子选股策略的基本框架,和单因子选股策略不同的地方在于,单因子选股直接针对因子进行排序来选择股票,而多因子选股需要先基于因子预测股票的未来收益,然后对预期收益进行排序进而选择下一期持有的股票。因此,多因子选股策略中很明确地包含了预测的成分,以及通过估计回归模型来完成的最优化手段。如果像第4章一样仅介绍简单的选股策略,那么从表面上来看,多因子选股策略的研究过程中由于存在回归模型的.一次性估计,因此包含未来信息的成分,而单因子选股策略的研究过程中则不存在未来信息的问题。但是正如前面所言,不断地尝试不同的因子、最后挑选出合适因子的过程.
实际上也是在进行最优化的筛选,这其中暗含的未来信息问题,需要研究人员加以注意。
在本节开始处作者提到过,单因子选股模型一方面可以直接反映该因子的获利能力,另一方面可以过渡到多因子选股策略的准备工作因子挑选之上。不过单因子选股模型在这两个方面发挥作用的时候,策略研发人员的关注点和需要处理的细节问题都有细微的差别,图5-5给出了一个简单的例子用来说明。当研究人员使用单因子模型直接构建交易策略进行交易时,主要关注的是被选人股票的收益情况,如图中曲线的加粗部分所示。只要这-部分的未来收益能够达到标准即可,至于因子大小排序在后面的股票,不管是展现出如图中的非线性趋势,还是有明确的线性趋势甚至是没有一个显著的走势,在重要性上要远逊于选入股票的收益情况,至多影响到策略的进一步改进。但是当研究人员使用单因子模型来挑选有效因f从而构建多因子模型时,由于涉及具体的收益预测问题,单个因子在多因子预测中需要合并起来使用,因此整个曲线的性状都是要加以考虑的问题。而本书中所述的多因子策略方法基于线生回归模型,因此预期收益和因子大小之间符合线性关系是最优状态,当1两者的关系呈现出如图5-5中所示的非线性关系时,在线性回归步骤之前对因子或收益数据做合适的预处理,例如法玛所使用过的对数化,就是个很有必要的过程。