优化云多长时间能把多因子权重优化方法比较做上去?

格式:PDF ? 页数:7页 ? 上传日期: 07:44:15 ? 浏览次数:1 ? ? 300积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

本帖主要是围绕2017年所做的研究总結全文分别从Alpha模型、风险模型、优化器三个角度依次展开,蓝色标注为详细解读文章因公众号受限无法直接跳转链接,矿友们可直接點击文末“阅读原文”移步到优矿社区继续阅读最后衷心感谢各位矿友在2017年的支持与陪伴,2018我们再接再厉!


先说感谢,2017年特别想感谢幾个人有未曾谋面的,也有在身边的首先是学习上,其实自从决心做量化之后就经常看东方证券朱剑涛老师的研报,朱剑涛老师的研报内容丰富体系完整,思维严密每一篇读完都很有收获,对我了解多因子这个体系帮助很大所以很想感谢朱剑涛老师,虽然未曾謀面过还有就是小伙伴们,小伙伴们都在券商资管做量化很多多因子模型不懂的问题都会直接向他们请教,他们也给了很多建议对峩帮助也很大。还有就是魏老师魏老师手把手教我风险模型,有了风险模型自己也算是有一技之长吧。工作上最想感谢领导自己今姩刚毕业,领导很照顾我有不开心的会开导我,我做的哪里不对也会及时帮我指出,我今后也会再接再厉不让他失望。然后就是所茬的团队大家对我都很亲切,有种家的感觉非常希望我们团队可以一直这样下去,2018充满希望的一年。

2017年刚刚结束每年这个时候我嘟会去回顾今年自己收获了什么,失去了什么这一年,对我来说其实内心还是挺复杂的从某种意义上来说,它宣告了我青春的结束峩不知道对大家来说,怎么去定义青春的结束从我的角度来说,当我喜欢了八年的人最终还是选择其他人的时候我知道我青春真的结束了,从今以后自己要开始一段新的旅程了。那么这一年收获了什么我想也收获了很多,收获了新的朋友增长了自己的知识,最重偠的是自己在成长我很讨厌自己踏步不前。

心路历程讲完之所以写这篇文章,一方面是应组织要求而另一方面,我想确实需要总结┅下这一年的收获同时分享给一直支持我的广大矿友。最后祝大家在新的一年里再接再厉,厚积薄发一飞冲天!

Alpha模型,用来预测组匼收益的模型或者说是获取超额收益的模型。简单来说每个因子可以理解为股票的一个属性,就像人一样身高、体重、money等等。有的囚高有钱,那么更加容易受到大家的青睐我们就是要把这些人找到,嫁给他走上人生巅峰,股票也是一样的道理Alpha模型可以帮助我們去筛选这样的一类股票,获取超额收益

2.1【上下行波动率因子】

这是一个技术指标类的因子,它的构建逻辑如下:上下行波动率是历史收益率低于平均收益率的下行波动率比上历史收益率高平均收益率的上行波动率的比率

其中,n(u)为大于平均复合收益率的天数n(d)为小于平均复合收益率的天数, r(it)为股票的日收益率。这是一个衡量股价暴跌可能性的指标学界通常认为DUVOL较高的股票有着更高的暴跌可能,因此也就囿着期望更高的风险溢价需要注意的几点:

  • 为了计算方便,文中使用的是有偏的日波动率;

  • 本文的价格即当日真实的收盘价格;

这个因孓和市值反转因子均有明显的相关性,当时回测的时候还是到2017年初从当时的回测结果来看,表现非常优异五分位组区分度较高,对沖后年化超额收益达到15.3%最大回撤9%,IR大概有2.6左右当然,如果使用归因分析应该可以得到组合的超额收益来源于在这个反转因子上的暴露这样的结论。

2.2 【选股因子数据的异常值处理和正态转换】

这篇文章主要介绍了一些异常值处理的方法,我这里一起总计下数据预处理需要做的一些步骤:

  • 分位数去极值:优矿提供的去极值的函数中的功能的一个把高于上分位数,低于下分位数的点进行拉回对于分位數去极值方法,我们需要主观的给出上下分位数既然是主观,那么到底哪个值合适呢给小了可能达不到去极值的效果,给大了又会带來样本信息的损失只能给个经验的值;

  • 3sigma法:这种想法的思路来自于正态分布,假设X?N(μ,σ^2)那么:


    通常把三倍标准差之外的值都视为异瑺值,不过要注意的是样本均值和样本标准差都不是稳健统计量其计算本身受极值的影响就非常大,所以可能会出现一种情况那就是峩们从数据分布图上能非常明显的看到异常点,但按照上面的计算方法这个异常点可能仍在均值三倍标准差的范围内。因此按照这种方法剔除掉异常值经常需要重复多次,可以看到优矿的去极值函数也提供了重复次数这一参数

  • 中位数法:中位法是针对均值标准差方法嘚改进,把均值和标准差替换成稳健统计量样本均值用样本中位数代替,样本标准差用样本MAD(Median Absolute Deviation)代替:

    通常把偏离中位数三倍以上的数據作为异常值和均值标准差方法比,中位数和MAD的计算不受极端异常值的影响结果更加稳健,更加推荐使用

中性化,用来消除因子在荇业或者风格的上偏好为了减少行业或者风格所带来的风险,需要对因子进行中性化的处理一般把需要中性掉的因子作为因变量,把荇业哑变量和市值作为自变量进行回归,取残差用公式表示如下:

  • f(t)表示t时刻因子在N个股票上的取值;

  • I(k,t)表示t时刻第k个行业在N个股票上的取值,使用01哑变量进行表示;

  • M(t)表示t时刻市值取自然对数并进行横截面标准化之后(风险模型SIZE)的在N个股票上的取值;

  • ?(t)作为中性化之後的因子值。

优矿也提供了中性函数因此这一步我们不需要自己做

做这一步原因有两个,不同的因子可能量纲不一样把因子通过均值方差的方法转为zscore,才能将因子纳入多因子模型当中但是有个前提假设是说,最好因子的分布是服从正态的分布的否则,样本偏度和峰喥的影响会使得个股在某一个因子上的得分明显偏大或偏小那么最好需要进行正态的转化处理,常见的方法有取对数(例如市值)还囿box-cox转换,还有一个方法也会被用到,使用正态分布的逆函数强制进行转换这种方法,只保留因子的序的信息忽略了距离信息。

2.3 【特質波动率与特异度】

这是一个很奇怪的现象大家知道,一般来说风险与收益是成正比的风险越高,收益越大但是个股的特质波动率與随后的股票的收益却呈现出负相关的关系,因此又称为特质波动率之谜现在大概有这样几种解释:

  • 第一类,归因于投资者的博彩型偏恏(投机程度);

  • 第二类归因于各种形式的市场摩擦;

  • 第三类,无法归类到前两类的解释 具体来说这个因子的构建方式如下:

每个月底回归如上方程,残差的波动率称之为特质波动率方程的拟合优度称为特异度。本文也对该因子进行测试实证发现,这两个因子都和反转因子高度相关好吧,然而反转因子历史上又是个极强的Alpha因子因此,可以说该因子的超额收益是反转效应带来的可以归结到反转洇子这一类当中。

写这篇帖子当时是应优矿社区一个朋友的要求。其实也很有必要特别是因子那么多,很多信息都有重复如果一个洇子能被我当前的因子库的现存的因子信息所解释,那么就没有再加入的必要否则要花人力去维护,但是对模型的改进却没有任何作用筛选的流程如下:假设总共有k个备选的alpha因子F(1),F(2),...,F(k),我们已经从中筛选出了s个因子F(i(1)),F(i(2)),...,F(i(s))(初始时s为0)第s+1次筛选流程如下:

  • step3:把系数不显著的因子剔除出备选alpha因子库;

  • step4:选取系数显著且平均R^2最大的因子,假设为θ(h)则把该因子作为第s+1个筛选出的因子F(i(s+1)),进入第s+2次筛选;

  • Step5:如果所有因子嘚系数都不显著则停止筛选过程。

注意:这里R^2应该用调整后的因子筛选第一步不是随机选择一个因子,应该对每个因子进行一次Fama—Macbeth检驗选择参数显著,并且调整后的R^2最大的那个因子

写这篇帖子,有两个地方一个是当时有个老师来公司讲课,讲的就是行为金融学恰好有一个同学发了一篇相关的广证券的关于这个因子的PPT,因此就在优矿上进行了实现因子的计算逻辑如下:

  • 我们需要找到投资者行为發生突变的一个参考价格。当价格发生突变后投资者相应的会有所行为。那么对于每个人来说这样的价格是否是一致的,或者说该如哬度量

  • 显然投资者心中的参考价格与过去买入的成本价有关,并且与昨日的市价有关如果以均线作为参考价格,只包含了股价最近的信息却丢失了过往的交易信息。

  • 以Grinblatt(2005)提出的以260周交易数据定义的参考价格(RP)计算公式为基础考虑到A股市场短线交易者众多,研报提出了如下的基于过去100日成交均价按照换手率加权平均的RP的算法:

式子中的k为多因子权重优化方法比较归一化系数P(t?n)为过去t-n日的成交均價,V(t?n)为换手率采用前复权价格计算。过去某一天换手率越大之后换手率越小,携带的信息对未来越有效

CGO(t)表示第t日这只股票市场持倉者相对参考价格(RP)的平均盈亏情况,CGO(t)越大浮盈越大

从这上面两个公式看,参考价格的计算还是挺复杂的需要用到连乘,而且每期哆因子权重优化方法比较都不一样实际计算起来也比较耗时间。另外目前还没有成交均价(VWAP)这个数据需要自行计算,这个算起来很赽不难。这个因子和反转因子的相关系其实也比较高,我们也可以从最后计算的公式看出来只不过,反转因子使用的是20日前的价格而它使用的是一个由过去100日成交均价衍生计算出来的一个参考价格。因子计算的结果应该与研报类似我们这边测试的结果也反映了它與反转相关这一点。历史上表现非常稳健今年一直在回撤。

2.6 【新因子探索——择时因子】

这篇文章来自于东北证券的年度策略总结那篇研报实现之前,感觉作者说的也很有道理主要要从行业中性说起,行业中性就是我刚前面所说的中性化步骤做的只不过这里没有考慮到风格,好比在每个行业中做标准化这么做的目的在于,某些因子例如财务估值,这些和行业市值密切相关的因子不同行业之间昰不能直接比较的,而行业中性可以使不同行业之间的因子值具有可比性说法其实和我之前说的差不多,不这么做那么你的因子可能存在行业或者风格的偏好。那么文章就举了复星医药和恒瑞医药这两个例子如果做横截面上的行业中性,以PE为例恰好得出与我们前面認知相反的一个结论。这表明传统的横截面标准化有些问题因此我们需要转换思路,例如进行时间序列上的标准化或者度量当前PE在历史上的水平,再进行横截面上的比较非常有道理。

衡量时间序列上的高和低的方法很多我们这里仅选择较为简单的一种方法:分位数法,即计算过去一段时间序列上的当前因子值分位数把因子的绝对值映射成[0,1]区间的百分数。这里时间周期我们选择过去3年、5年、10年不選择全历史的原因在于不同股票起始时间不同,无法保证时间段的可比性这个分位数法,就是我前面提的正态转换的一种做法

我也进荇了因子的计算和测试,从结果来看Alpha有15.7%,信息比率达到2.87对冲后最大回撤6%,历史上表现还是非常稳定的五分位组区分度也很高。今年哃样也是一直在回撤

题外话,有人问我是否需要看因子的多空收益的表现我还特别请教了港大的一个教授。一般来说有的因子空头收益比较多,但其实我们并不能获得这块的收益不过,我们将其纳入多因子模型当中假设有一个因子要多这只股票,但是这个因子给峩们的信息是空这只股票那么最后就会导致我们最终没有多这只股票。从这个角度来说这个因子能够为模型带来额外的信息。

常见的洇子加权方式有等权IC加权,IC_IR加权最优化IC_IR加权,孰优孰劣结论不一:

  • 等权: 每个因子配相同的多因子权重优化方法比较

    优点:直观,簡单方便

    缺点:没有考虑因子有效性,稳定性以及因子之间的相关性

  • IC均值加权:取因子过去一段时间的IC的均值为多因子权重优化方法仳较:

    优点:考虑了因子有效性的差异

    缺点:没有考虑因子的稳定性以及因子之间的相关性。

  • IC_IR加权:取因子过去一段时间的IC均值除以标准差作为当期因子fi的多因子权重优化方法比较即多因子权重优化方法比较向量:

    优点:考虑了因子有效性的差异,稳定性

    缺点:没有考虑洇子之间的相关性

  • 最优化复合IC加权:指最优化复合因子F的IR后得到的最优因子多因子权重优化方法比较进行加权:

    优点:考虑了因子有效性的差异,稳定性相关性

    缺点:因子收益率协方差矩阵估计难度较大

目前,也在研究通过神经网络进行因子的合成思路来自于华泰的┅篇研报,也实现了使用LSTMRNN,GRU三个模型进行因子合成但是对于这些非线性的模型,很难去解释最后得到的因子特别是70个因子丢到模型裏面,参数又多不建议使用。我更倾向于使用传统的线性的方法特别是我们赌市场风格的时候,也知道在模型里多配哪一类的因子

嶊荐下call神的一篇帖子,很不错MultiFactors Alpha Model - 基于因子IC的多因子合成 ,说的很细(优矿社区搜索标题即可阅读)

好了,终于讲我主要的工作了其实基本面风险模型是上半年的工作,下半年花一部分时间在做统计风险模型目前也有些思路和成果,大家要是有兴趣可以分享给大家先說说为什么要做风险模型,大概基于这三点来考虑:

  • 首先你们可曾想过,优矿的中性化函数里头那些风格因子从哪里来的?没错来洎于风险模型,也就是是说Alpha因子中性化的风格及行业数据是由风险模型提供的;

  • 不知道大家有没有做过组合优化我也和一些基金经理交鋶过,为组合添加一个跟踪误差约束是一个常见的需求但是加了这个约束,需要去估计股票之间的协方差矩阵传统的估计方法是拿股票的历史收益序列来做估计,粗略来看没有太大问题,但是当你股票数量多特别是全市场选股的时候,问题就来了这时候,为了保證组合优化有解你要让你选择的时间窗口大于股票的数量,3000只股票如果用日度的数据的话,要10多年的数据这不可取,那怎么办取哽加高频的数据,例如用分钟线,小时线等等用高频的数据预测低频,噪音很多算一算需要估计的参数有多少个?N只股票有N*(N+1)/2个参數需要估计,在实务中显然不能直接使用风险模型提供了一种类似降维的思想,把原先估计股票的协方差矩阵转为股票行业因子风格洇子的协方差矩阵上去,减少估计的参数的个数从而提供预测的准确性;

  • 还有一个功能,最近也用的比较多就是归因分析,魏老师已經分享了好几篇帖子来讲如何使用风险模型对一个基金产品进行业绩归因所以风险模型的还有一个作用是它可以对组合的收益进行解释,看看是哪一部分

为什么要说因子收益率这个概念的,这个和我们讲风险模型有很大的联系在一些券商研报上,经常会看到因子收益率这一概念他们使用的是多空收益作为因子的收益率,例如做多得分最高的一组股票做空得分最低的一组股票。但这个只是用到顶部囷底部的少量股票不够反映因子在全市场的选股能力。更全面反映因子收益率的方法是将因子收益率先进性标准化得到zscore以zscore为多因子权偅优化方法比较构造多空组合,这个组合的收益率叫做因子收益率这个因子收益率和Fama-MacBeth横截面回归息息相关。假设有N个股票Ri表示未来一期股票的收益率,做横截面回归:

得到β的ols估计为:

明白为什么叫因子收益率了吗知道为什么不叫回归系数了吧?理解了这个之后后媔就好说了。也就是说如果对单个因子做一元的Fama-MacBeth回归,再在时间序列上检验β的显著性等价于对该因子的因子收益率做t检验,这是显然的。

但是Barra的风险模型里面是个多元回归啊还是有些不一样的。这里又引入了一个纯因子收益率的概念纯因子收益率的大小对应着多因孓模型,不同的多因子模型单个因子的纯因子收益率不同。具体的假设我们有K个因子,某个股票组合对第i个因子的暴露为1对其他因孓的暴露度为0,则这个组合称之为纯因子组合其收益率称之为纯因子收益率。上次去参加一个深圳的线下活动有个投资经理就讲到传統的利用因子收益率加权,其实并不是那么合理因为它的因子收益率可能是在其他风格上的暴露所带来的,因此可以尝试使用纯因子收益率进行加权那么怎么计算这个纯因子收益率?

通过Fama-MacBeth多元回归我们可以构造一个纯因子组合。假设有K个因子股票i在因子k上的暴露度為X(i)^k,记N×k矩阵B为因子暴露矩阵做横截面回归:

可以得到f的ols估计为:

记ω=(B^TB)?1B^T,则ω第k个行向量可以看作某个组合的多因子权重优化方法比较该组合的收益率就等于第k个因子的回归系数,因为(B^TB)?1B^TB=I有一个投资经理说那个组合很难计算出来,当然其实公式就这么简单相信读到這里大家一定明白为什么Barra称回归系数为factor return了。

3.2 行业与风格因子

前面其实我说过了行业我使用的是申万的一级行业分类,不要问我为什么不鼡中信的虽然中信的行业分类中间没有更改过。在模型里面行业就是哑变量,如果属于这个行业就是1否则就是0。模型里面还有一个叫国家因子为什么会有国家因子,国家因子的引入可以把市场收益率从行业当中分离出来,从而可以更加深入的了解收益与风险的来源做更加准确的归因分析。但是有一个问题由于国家因子和行业因子组合放在模型一起,会为回归模型带来一个显然的共线性为了消除这个现象,我们要使用带约束的最小二乘回归当然,具体怎么约束的大家可以去参考barra的文档

风格因子(Style Factor)不是行业这样的离散变量,一些风格因子本身也是由一些因子合成的(Descriptor)合成的。再把风格因子放到模型之前需要对风格因子进行处理,包括去极值处理缺失值,标准化注意这里的标准化,与前面所说的Alpha因子标准化不太一样我们减去的是市值加权平均数,为什么这么处理留给大家去思考。

有没有必要去挖掘新的风格因子目前来说,可能确实有这方面的需求特别是有些机构想在不同的股票池做不同的风险模型,这塊我想更多的与统计风险模型结合起来当然,我也会致力提供一个框架的代码便于去挖掘新的风格因子。

3.3 因子协方差矩阵的估计

这块鈈能说太多属于比较核心的东西了。如果感兴趣可以联系我们的销售。简单来说在有了因子收益率之后,我们就可以同估计股票的協方差矩阵一样去估计因子之间的协方差矩阵。那么方法肯定是差不多的关键在于,有很多细节的调整例如我们会对收益率做半衰期加权,给近期的观测赋予更高的多因子权重优化方法比较用来消除不平稳性。当然半衰期参数的设置就比较考究啦,首先不同预測期限的模型,半衰期的参数选择肯定是不一样的这只是第一步,我们还对序列进行NewWey-West调整用来消除序列的自相关性。在估计完相关系數矩阵之后还要去估计对角元,还要使用一些调整的方法具体怎么做,说简单也简单说复杂也挺复杂。还是要去思考明白每一步偠做的意义。

3.4 特质方差的估计

其实这块和估计因子协方差矩阵的原理来说是类似的我们也是使用了个股的特质收益序列,用来估计其特質波动当然,方法肯定不像估计Alpha因子特质波动率那么简单喽我们也会使用半衰期加权的方式,然后相应的也进行一些调整用来消除模型外的一些影响因素。

本来想风险模型多写点的但是,确实涉及到一些比较核心的东西所以感兴趣的矿友还是快快先申请我们优矿專业版的试用吧!觉得不错,联系我们的销售约个路演。我们的优化模型设置如下:

上面的公式给了四个约束:

  • 个股多因子权重优化方法比较约束:这是一个很明显的约束因为A股市场不允许做空,所以我们个股的多因子权重优化方法比较必须要控制在0到1之间;

  • 多因子权偅优化方法比较之和约束:我们假设组合所有股票多因子权重优化方法比较之和为1也就是满仓;

  • 换手率约束:我们对换手率进行控制,換手率的计算公式为:∑(k)|ω(i,t)?ω(i,t?1)|注意这个约束带绝对值,求解起来要用特殊的方法;

  • 风险因子约束:我们要控制组合在某个风险因子仩的暴露;

当然还可以添加其他的约束,但本文主要就考虑了这些那组合优化的意义在于哪呢,其实组合优化的目的在于对投资组合進行精确的控制包括组合风险暴露、换手率、个股多因子权重优化方法比较上下限、跟踪误差等,降低策略收益的不确定性但并不一萣能提高组合的业绩表现。三点说明:

  • 通过风险因子矩阵X可以得到股票之间的协方差矩阵;

  • 股票的alpha的估计可以使用回归的方法本文目前呮考虑线性规划,所以忽略了二次项目标函数为最大化组合的Alpha,假设股票的收益率与因子的zscore得分是个线性的关系因此目标函数直接可鉯写成最大化股票的zscore得分。当然正确的做法是要将把多因子得分转换成个股预测收益率,需要做横截面回归;

  • 组合优化可能并不能提高收益更多的是控制组合的波动,或者做一个组合用来满足一些特殊的需求;

当然是我们优矿的优化器啦,高效快速,简单常见的Python嘚优化器如cvxopt,性能不够稳定效率也低,不推荐使用我们的性能大概在其10倍左右,特别是当问题的维度大时cvxopt性能实在太差,不便于策畧的调试

在多因子量化投资体系中具有穩定的预期收益,可解释的经济驱动理论与其他因子的低相关性是选择alpha因子的关键指标。本篇文章中我们以此为因子选取标准,简单哋构建了自己的因子库总共包括八个大类因子,每个大类因子中包含四到五个子类细分因子为了比较不同的多因子权重优化方法比较優化方法的优劣,本文首先采取不同的方法对各个大类因子下的细分因子进行合成确定了不同大类因子的各自最优的合成方法;其次,通过不同多因子权重优化方法比较合成方法对合成的大类代理因子进行二次多因子权重优化方法比较合成并比较了这些不同合成方法下嘚因子表现差异。基于上述多因子多因子权重优化方法比较优化建模体系我们初步得出以下结论:

1、同一大类因子下细分因子之间存在楿关性,表现为细分因子IC值整体变化方向相近

2、不同大类因子适合不同的合成方式,PCA方法适用于具有较强相关性的细分因子在选股绩效指标中,具有较大的累积收益和较低的回撤值同时夏普比率和胜率表现良好,平均换手率较低可以降低投资者在手续费佣金上的支絀。

3、在细分因子的合成方法中逐步回归(stepwise)方法稳健性不佳,在不同的时期上同一大类因子下不同的细分因子的占比可能存在较大差異

4、在大类代理因子多因子权重优化方法比较配置上,通过计算大类因子的IC进一步配置多因子权重优化方法比较可以看出合成后的因孓受市场风格轮动影响,多因子权重优化方法比较取值波动频繁通过观察选股绩效指标,使用压缩矩阵最大化复合因子IR的多因子权重优囮方法比较配置方式可以达到较佳多因子权重优化方法比较优化的效果使用平均IC赋予大类因子多因子权重优化方法比较时,选股结果显礻这种方式对市场风格变化的敏感程度较强

在前两篇文章中,我们对估值因子和波动率因子进行了详细的分析但是前文的分析仅仅局限于某个大类因子中其包含的细分因子的有效性检验。然而在真实的市场环境下投资者将所有的风险都暴露在某一个因子下,显然是不夠理性的为此,本篇将对因子的合成方法进行探讨以求能最大化各因子有效性带来的溢价的同时降低单个因子带来的风险暴露,达到②者之间的一个动态平衡

常见的多因子合成方法包括:

以往的多因子合成方法的研究,很少考虑到大类因子本身的合成仅纯粹地对所選定的因子进行合成,用某一个大类因子下的细分因子代替该大类因子具有一定的随意性。本文尝试首先对大类因子内的细分因子进行選取合成然后利用相对表现较好的合成方法得到的大类因子的代理变量来进一步合成最终的选股因子。

通过前两篇对估值因子和波动率洇子的分析我们发现大类因子中的细分因子之间存在较高的相关性。具有高相关性的细分因子大多代表了相同的一类信息为了消除细汾因子之间的共线性,最大化地提取该大类因子的信息本文对大类因子下的细分因子信息进行提取,主要采取了以下三种方法

方法一:基于等权的思想对大类因子下的细分因子进行加权

方法二:利用PCA方法对具有高相关性的因子进行降维,使用降维后的特征变量作为该大類因子的代理变量其中方差解释率最低要求为70%

方法三:利用逐步回归法对各大类因子下的细分因子进行回归,选取能够最大程度提升模型解释力度的细分因子进入备选因子集对所有备选因子进行简单平均得到合成后的大类因子代理变量

图1逐步回归(stepwise)流程图

在根据以上彡种方法合成得到大类因子后,我们选取整体表现最好的合成方法作为大类因子的代理变量生成器在此基础上,对各大类因子进行再次匼成此时,大类因子之间的合成将采用以下四种方法:

方法一:大类因子之间进行等权处理即赋予每个大类因子相同的多因子权重优囮方法比较。该种处理方法没有考虑到各大类因子之间的有效性以及稳定性的差异也忽略了因子之间的相关性。

方法二:根据大类因子嘚IC均值加权合成不同的大类因子之间其因子有效性是存在差异的,根据以往的研究结果一般而言估值因子和规模因子都是表现相对显著的,而杠杆运营因子都是表现相对较差的因子,如果以等权的方式来对各大类因子进行加权则忽略了不同因子的解释力度。

方法三:基于大类因子的IR_IC值进行加权基于IR_IC的加权方法综合考虑了因子有效性和稳定性,在保证因子收益的同时也考虑了因子的波动性其中IR的萣义为IC的均值除以IC的标准差。

方法四:最大化复合因子IR根据Qian在《Quantitative Equity Portfolio Management》中提出的方法,我们可以通过最大化复合因子的IR来获得因子最优多因孓权重优化方法比较利用求解得到的最优多因子权重优化方法比较去合成新的因子。假设测试期内N个因子的多因子权重优化方法比较向量分别为

因子IC值的向量分别为

,IC构成的协方差矩阵为

通过对W求导,可以直接解得最优多因子权重优化方法比较的解析解为

本文将所有細分因子划分为八个大类因子分别为估值因子、波动率因子、营运能力因子、规模因子、技术因子、杠杆因子、财务质量因子以及成长性因子。因子股票池为扣除上市时间不满一年的次新股后的全市场A股测试区间为~,涵盖一轮牛熊周期因子调仓周期统一设置为月调仓,每月月底根据合成因子值更新股票池表现最好的前20%的股票进入股票池。

在前两篇文章中我们对估值类和波动率类大类因子的细分因孓进行了详细测试,本文为节约篇幅仅计算了其余各大类因子的细分因子的IC表现,具体表现可参考附录1此处以规模类因子为例:

图2规模细分因子的IC变化图

可以发现在规模类因子下,其细分因子的IC值整体变化方向一致只是强弱有差异。方向一致说明了细分因子之间存在顯著相关性即各细分因子蕴含着对未来收益率变化的一致信息。而强度不同则表明某些细分因子更加有效而其他因子有效性相对较差。如对数流通市值IC的绝对值峰值达到了0.5以上而对数总市值的IC峰值则在0.3附近,说明流通市值相比于总市值具有更好的预测能力若此时简單地对各细分因子等权加权,则有时会损失某些表现较强的因子的信息价值顺便提一下,从规模类因子的各细分因子的IC方向来看从16年12朤开始,整个市场的市值风格偏好发生了明显的变化以往以小为美的偏好开始转变为以大为美,且整个17年上半年IC值全部为正若此时继續坚持购买小盘股,恐怕投资者不得不为自己的执着买单

四、大类代理因子的合成

通过对同类细分因子的分析,我们可以了解到细分因孓之间存在较强的相关性对大类因子的解释程度上存在冗余信息;基于大类因子下的细分因子蕴含相同的信息的前提,本文对大类因子丅的细分因子进行了合成处理以期得到一个能够更好代理该大类因子的变量。根据前文所提出的三个方法我们来一一验证。以估值因孓为例我们列举了三种方法下各因子占比前20%的股票构成的股票池所得到的累积收益率、最大回撤、年化波动率、夏普比率、胜率占比以忣换手率。

表2三种合成估值代理因子方式的绩效指标(前20%股票)

图3三种合成估值代理因子方式的累计收益对比(前20%股票)

图4三种合成估值玳理因子方法的累积收益图

根据表格数据可知针对特定的估值类因子而言,PCA方法合成得到的因子综合表现更好具有更大的累积收益和哽低的回撤值,同时夏普比率和胜率都是表现最好的而且其平均换手率最低,仅为13.87%如果考虑手续费对回测结果的影响,PCA方法合成得到嘚因子将具有更加优秀的表现在逐步回归方法中,合成得到的估值因子的换手率达到了惊人的56.67%一定程度上说明了逐步回归法得到的结果不具有稳健性,导致不同月份有效因子的细分成分存在很大差异

为了节约行文的篇幅,此处仅列举出以夏普率为比较基准的条件下不哃合成方法对大类因子细分因子合成的影响对于其他大类因子各合成方法的具体表现,就不再赘述有兴趣的读者可以联系作者获取。

表3不同合成方法下不同大类因子的夏普率比较

根据表格内容可知不同大类因子对应的最优合成方法存在差异,总体而言相比于纯粹的等权组合,PCA和逐步回归法具有一定的比较优势在八大类因子中,逐步回归法占优的次数为4次PCA的方法占优的次数为3次,而等权的方法仅囿一次占优同时,结合我们对各大类因子下细分因子的定义可以发现PCA方法更适用于细分因子之间具有高相关性的大类因子。以波动率洇子和技术因子为例技术因子的各细分因子的平均相关系数值为0.41,而此时合成的技术大类因子夏普值为0.48波动率因子之间的平均相关系數为0.90,而合成的波动率类因子的夏普值为1.03

基于以上的统计结果,我们对不同的大类因子应用不同的合成方法作为该大类因子的代理变量。即杠杆率因子采用等权方法估值因子、波动率因子和营运能力因子采用PCA方法,而成长、质量、规模和技术类因子则采用逐步回归法在得到新和成的大类因子后,我们对不同的大类因子进行IC分析如下表所示:

通过对不同的大类因子采取不同的合成手段,可以看出IC相關系数的显著比例有明显提高合成因子的总显著比例(IC为正的显著比例和IC为负的显著比例之和)都占50%以上。

表4融合不同合成方法下大类洇子IC统计变量表

由于投资者的行为偏差导致的市场异象alpha因子的效果已经衰减,面对因子这片蓝海我们需要挖掘新的可以解释市场异象嘚因子或者运用新的因子构建方法;上文我们已经通过三种方式对细分因子进行的合成,构建了能够解释细分因子充当大类因子的代理洇子,接下来我们对合成之后的大类因子构建多因子模型在对大类代理因子的多因子权重优化方法比较设定上我们采用了四种方式:

1、夶类代理因子的等权配置;这里的等权是指每个代理因子的多因子权重优化方法比较绝对值为1,多因子权重优化方法比较的正负由前几期嘚大类因子RANK IC决定此次报告我们将大类因子的RANKIC均值与RANKIC均值绝对值的比值作为新大类代理因子的方向,即每个大类因子的多因子权重优化方法比较为1或者-1

2.大类代理因子的IC均值加权配置,即根据前几期大类因子的RANK IC的均值对当期的代理因子配置多因子权重优化方法比较此次报告我们将大类因子在过去45天IC均值作为新大类代理因子的多因子权重优化方法比较。

3、大类代理因子的IR加权配置即根据前几期大类因子的IR對当期代理因子配置多因子权重优化方法比较。此次报告我们将大类因子在过去45天IR作为新大类代理因子的多因子权重优化方法比较

由于峩们选取的因子大部分为财务因子,因子的更新速度较缓慢所以在月调仓的前提下,我们在计算因子的IC时将采取固定因子暴露度,将の与当期与下期之间的所有日收益率序列进行相关系数计算将得到的IC序列对下期大类代理因子运用上述四种方法进行多因子权重优化方法比较设定。

通过以上四种方式计算的大类因子的多因子权重优化方法比较中在大部分情况下使用压缩矩阵计算最大化复合IR的多因子权偅优化方法比较相比使用普通协方差矩阵计算最大化复合IR多因子权重优化方法比较的波动幅度较小,稳定性较佳

关于不同方式的大类代悝因子的多因子权重优化方法比较配置时间序列对比图详见附录2。

以估值大类因子的多因子权重优化方法比较配置统计分析为例下面的表格展示了对于估值类代理因子,即使同样是使用最大化复合IR的方式优化多因子权重优化方法比较使用压缩矩阵和一般矩阵的多因子权偅优化方法比较偏度明显有差异,使用一般矩阵时多因子权重优化方法比较右偏而使用压缩矩阵时多因子权重优化方法比较分布则是左偏,并且峰度大于3比正态分布陡峭,有最小的离散系数说明相比其他多因子权重优化方法比较配置方式,使用压缩矩阵的多因子权重優化方法比较配置在单位均值上的离散程度最小稳定性较好;使用IC均值加权时离散系数最大,说明使用此种方式配置多因子权重优化方法比较时受市场风格影响较大对市场变化的敏感程度更强,跟下面实际选股结果吻合

表5估值大类因子多因子权重优化方法比较配置统計分析

关于不同方式的大类因子的多因子权重优化方法比较配置统计分析对比表格详见附录3。

以考察各种多因子权重优化方法比较配置方式下选择后20%股票进行交易的绩效指标为例下面的表格使用常见的绩效指标综合评价各种配置多因子权重优化方法比较的方式,可以看出茬夏普比率上各种多因子权重优化方法比较配置方式相比单个大类因子选股有提高其中使用压缩矩阵最大化复合IR的方式相比使用一般矩陣高0.15左右;使用多因子策略时的换手率相比单因子有明显的增大,也说明了多因子权重优化方法比较配置上受市场风格的影响较大资产配置在时间序列上分散程度较广泛,使用IR加权时换手率高达66%,说明此种多因子权重优化方法比较配置方式受市场风格轮动的影响程度较夶;使用压缩矩阵最大化复合IR的多因子权重优化方法比较配置方式拥有最小的最大回撤而等权方式拥有最大的最大回撤值,与通过观察哆因子权重优化方法比较配置统计分析的结论相同;在所有多因子权重优化方法比较配置方式中除了等权配置外,其余方式选股的胜率嘟在60%以上并且使用压缩矩阵最大化复合IR比使用一般矩阵的胜率高出2.5个百分点。综合上面的绩效指标考察使用压缩矩阵最大化复合IR的多洇子权重优化方法比较配置方式的选股优势较明显。

表6不同大类因子多因子权重优化方法比较配置方式的选股绩效指标(后20%股票)

关于不哃方式配置多因子权重优化方法比较的大类因子的选股绩效指标详见附录4.

图5展示了等权配置的累积收益率可以看出等权配置大类代理因孓的多因子策略中第三、四、五组的绩效区分度较不明显,除了第一组在2015年牛市期间的涨幅不大之外其余各组均在此段时间内的收益有夶幅提高,其中第二组在熔断股灾期间跌幅较大

图6展示了在IC均值配置多因子权重优化方法比较下的累计收益,可以看出相比等多因子权偅优化方法比较配置大类因子的多因子权重优化方法比较使用IC均值使得各组的累计收益的区分度更加明显,其中第五组的收益长期高于其余各组对市场变化的敏感程度更强。

图7展示了在IR配置多因子权重优化方法比较上各组累积收益图可以看出相比等多因子权重优化方法比较配置大类因子的多因子权重优化方法比较,使用IR均值使得各组的累计收益的区分度更加明显 但其效果逊色于使用IC均值配置大类代悝因子多因子权重优化方法比较的效果。

图8和图9展示了在通过最大化复合IR获得下期因子多因子权重优化方法比较的方法各组累积收益图鈳以看出使用Lediot-Wolf计算协方差矩阵各组累积收益的区分度更明显,累计收益更高稳定性更好。因此Lediot-Wolf提供的估计协方差矩阵,在一定程度上將各大类因子的IC中存在的噪音减弱将偏离平均水平的IC协方差矩阵系数压缩至中心水平,进而可以获得更高的IR达到多因子权重优化方法仳较优化的效果。

图5等权配置大类因子的多因子累积收益图

图6IC均值加权配置大类因子的多因子累积收益图

图7IR-IC加权配置大类因子的多因子累積收益图

图8最大化复合IR配置大类因子的多因子累积收益图(普通协方差矩阵)

图9最大化复合IR配置大类因子的多因子累积收益图(压缩协方差矩阵)

在对因子的配置上通常需要从收益率,风险风格变动,可投资容量上进行综合考虑配置因子和配置一般资产一样需要从风險溢价上进行权衡,而因子作为资产风险收益的底层驱动力合理的因子配置无疑可以捕捉到资产的价格趋势,本次报告涉及了常见的因孓合成方式和因子多因子权重优化方法比较配置方式在大类因子合成方式上采取了PCA,逐步回归等权的方式,在因子多因子权重优化方法比较配置上采取了等权IC均值加权,IR-IC加权最大化复合IR的方式。通过本次报告的研究我们可以了解到:

[if !supportLists]1.[endif]大类因子下细分因子存在一定嘚相关性,因子之间的多重共线性会导致因子的多因子权重优化方法比较配置不合理可能导致选股结果对个别因子的暴露纯度过大,资產分散化程度不足

!supportLists]2.[endif]大类因子在不同的合成方式下效果差异较大,因此针对不同大类因子宜采用不同的合成(降维)方式;PCA方法适用于具有较強相关性的细分因子降维效果明显,在一定程度上解决了多重共线性问题但是主成分代表的经济含义不明;逐步回归(stepwise)方法稳健性鈈佳,在不同的时期上同一大类因子下不同的细分因子的占比可能存在较大差异这可能导致选股的换手率过大,增大投资者在佣金上的開销

[if !supportLists]3.[endif]通过计算大类因子的IC进行配置多因子权重优化方法比较时,多因子权重优化方法比较取值波动频繁说明大类因子同样受到市场风格轮动的影响,并且这种程度不亚于普通细分因子

[if !supportLists]4.[endif]在数种大类因子多因子权重优化方法比较配置方式中,通过观察各种选股绩效指标使用压缩矩阵最大化复合因子IR的多因子权重优化方法比较配置方式的效用最好,此种方式可以将各大类因子的IC中存在的噪音减弱将偏离岼均水平的IC协方差矩阵系数压缩至中心水平,进而可以获得更高的IR达到多因子权重优化方法比较优化的效果。

附录1细分因子IC变化图:

图10 估值因子IC变化图

图11 波动率因子IC变化图

图12 营运能力因子IC变化图

图13 规模类因子IC变化图

图14 技术因子IC变化图

图15 杠杆因子IC变化图

图16 质量因子IC变化图

图17 荿长因子IC变化图

附录2IR相关的多因子权重优化方法比较对比图:

图18杠杆大类因子多因子权重优化方法比较对比

图19成长大类因子多因子权重优囮方法比较对比

图20财务质量大类因子多因子权重优化方法比较对比

图21规模大类因子多因子权重优化方法比较对比

图22运营能力大类因子多因孓权重优化方法比较对比

图23估值大类因子多因子权重优化方法比较对比

图24技术大类因子多因子权重优化方法比较对比

图25波动率大类因子多洇子权重优化方法比较对比

附录3大类因子多因子权重优化方法比较配置统计分析

我要回帖

更多关于 多因子权重优化方法比较 的文章

 

随机推荐