【中信建投多因子与ESG策略组】:基于机器学习的基金行业仓位测算模型—基金研究第十三期


重要提示  





通过本订阅号发布的观点和信息仅供中信建投证券股份有限公司(下称“中信建投”)客户中符合《证券期货投资者适当性管理办法》规定的机构类专业投资者参考。因本订阅号暂时无法设置访问限制,若您并非中信建投客户中的机构类专业投资者,为控制投资风险,请您请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。对由此给您造成的不便表示诚挚歉意,感谢您的理解与配合!

重要声明:本文观点不构成任何投资建议和市场判断。


摘要


研究背景

权益基金的行业仓位对 FOF 投资和行业配置有着重要参考意义,一方面当把大类资产配置和行业配置策略映射到基金标的的时候,如果对基金的行业暴露没有清晰认知,那实际组合效果往往打折扣;另一方面如果可以获取主动权益基金实时的行业仓位变化数据,假设主动权益基金的投资行为对股票定价具有较大影响,那么其整体行业配置权重的边际变化也将会对我们构建行业轮动策略形成重要的参考。实际中公募基金只有半年报和年报才会公布完整股票持仓,数据频率较低,而且具有很强的时滞,因此我们认为有必要构建基金行业仓位实时估计的量化模型。


测算原理
我们采取三种方法进行行业仓位估计,分别是:1)卡尔曼滤波(Kalman Filter)算法,假定 k 时刻基金的状态由 k-1

时刻递推而来,以基金收益率为观测值,并设定状态转移矩阵和初始状态协方差矩阵为单位矩阵,量测矩阵(动态更新)为每一期行业指数收益率,通过预测与更新两阶段对样本内的数据遍历,以最后一期的状态估计作为行业仓位估计值,同时对行业仓位为负的值取0,并将全部行业仓位估计值单位化使得和为 12Lasso 回归在传统线性回归模型的损失函数后面加入 L1 正则化惩罚项,使得它压缩一些系数,减少复杂模型过拟合问题,可以较好地解决行业指数收益率之间存在的较高相关性问题,回归解释变量为行业指数收益率,被解释变量为基金收益率。3)岭回归(RidgeRegression),在传统线性回归模型的损失函数后面加入 L2 正则化惩罚项,其他类似 Lasso 回归。


模型评价
对比卡尔曼滤波、Lasso 回归、Ridge 回归结果的 MSE 均值,卡尔曼滤波的 MSE 均值最小为 0.341%,其次是 Lasso 回归为0.3626%Ridge 回归最高为 0.4062%,也就是说从估计精确度来看,卡尔曼滤波估计最为精确,考量到估计值有时候有系统性偏差,我们基于最近两期历史估计值与真实值的差距对最新估计值进行修偏,修正后的模型依旧是卡尔曼滤波 MSE 均值最小,为0.2167%,因此修正版本的模型估计精度提高。

风险提示:模型失效风险,回测业绩不代表未来。


一、

研究背景

 

1.1背景
权益基金的行业仓位对 FOF 投资和行业配置有着重要参考意义,一方面当把大类资产配置和行业配置策略映射到基金标的的时候,如果对基金的行业暴露没有清晰认知,那实际组合效果往往打折扣;另一方面如果可以获取主动权益基金实时的行业仓位变化数据,且假设主动权益基金的投资行为对股票定价具有较大影响,那么随着市场上权益型基金产品数量和规模扩张,其整体行业配置权重的边际变化也将会对我们构建行业轮动策略形成重要的参考。
我们选取 2021 版 31 个申万一级行业指数作为行业的代指,行业指数收益率作为自变量,将基金日度收益率作为因变量,如果构建普通的线性回归模型,理论上特定行业指数收益率的斜率系数正比于其权重,但这存在严重的多重共线性问题,扰乱回归估计值的精确度,下面的 31 个申万一级行业指数收益率相关系数统计即是印证,申万一级行业相关系数分布如下:

由统计结果可知,在统计区间内所有行业之间的相关系数都为正,有 21.72%的相关系数大于 0.8,大于 0.6 的占比接近 60%,说明申万一级行业指数收益率之间存在较高的相关性,做简单线性回归会出现多重共线性问题。

因此,本文将会采用卡尔曼滤波(Kalman Filter)、Lasso 回归和 Ridge 回归三种方法,构建基金行业仓位测算模型。

二、测算原理

 

2.1模型介绍

2.1.1 卡尔曼滤波

卡尔曼滤波(Kalman Filter)算法假设

k 时刻的真实状态是从 k-1 时刻递推而来,卡尔曼滤波器的操作包括两个阶段:预测与更新。在预测阶段,滤波器使用上一状态的估计,做出对当前状态的估计。在更新阶段,滤波器利用对当前状态的观测值优化在预测阶段获得的预测值,以获得一个更精确的新估计值。


三、单基金测算实践

 

3.1 相关系数全历史均值对比

我们选取四只风格各异的主动权益基金进行举例分析,为规避基金推荐之嫌,代称为 A、B、C、D 基金,并列出原始和修正两个版本的估计值,将他们与真实值对比,考虑到公募基金半年报及年报才有完整股票持仓,因此真实值的频率为半年,测算值频率则为一个季度(当然更高频率的估计值模型也可以计算,比如日频)。

第一是 A 基金的分析,其对煤炭行业的配置权重估计值原始及修正版本结果如下,模型较好的刻画了行业权重的趋势,比如 2020 年初-2021 年 Q2 的煤炭行业加仓趋势(不过模型值有一定滞后)、2021 年 Q2-2021 年Q4 的煤炭行业减仓趋势,由于测算值的数据频率更高,因此图型上相对真实值看起来“波动”更大,但对趋势的预测效果整体是较好的,值得一提的是对煤炭行业的配置是该基金 2021 年表现相对亮眼的原因之一。在反映行业配置趋势的同时,测算模型可能有系统性的偏差,比如 2021Q2-2022Q2 中,Lasso 回归测算值始终高于真实值,修正版的模型可在一定程度上解决这一问题。

Lasso 回归估计结果更为稀疏(配置权重为 0 的行业更多),比如 2019 年 Q2 煤炭真实权重较低的情形下,Lasso 测算结果为 0,这不同于卡尔曼滤波和 Ridge 回归,因此对真实配置权重较低的行业或者行业配置较为分散的基金而言,Lasso 回归效果不及另外两者,而对于行业配置集中的基金或者基金配置权重较大的单一行业言,估计结果稀疏的特征意味着 Lasso 效果更好。

第二是 B 基金的分析,卡尔曼滤波和 Ridge 回归方法较好的捕捉到了基金 2019 年 Q2-2020 年 Q4 对机械行业的加仓趋势,而 Lasso 回归法只有在机械行业仓位上到一定水平的时候,测算值才有所反应,当 2022 年底行业仓位达到 25%以上的水平时,Lasso 回归估计值的比较优势开始显现,其更好地捕捉了随后的机械行业仓位下行趋势,因此我们认为当行业配置权重较高的时候,Lasso 回归可更好地反映边际变化,这与 A 基金的分析一致。

        第三是 C 基金的分析,2021 年初基金对电力设备已经加仓至较高水平,此时 Lasso 回归估计值的优势开始显现,再看 2015 年 Q4-2016 年 Q2,此时电力设备行业权重中枢值较低,Ridge 和卡尔曼滤波表现出了更优异的估计效果,这是他们的估计结果没那么稀疏所致。我们选取数据为季频的估计值,如果改为月频或者周频,对边际变化的刻画效果理论上会更好。就对 2022 年 Q3 的预测来说,三种方法都预测该基金电力设备行业权重上升。

C 基金电力设备行业权重修正估计值更为接近真实水平,但部分时点对边际变化的刻画有所滞后,比如 2020年 Q2-2020 年 Q4。

第四是 D 基金的分析,2018 年 Q4-2019 年 Q4 基金对电子行业大幅加仓,三种方法估计值都捕捉到了这一趋势,但也有误判的时候,比如 2020 年 Q4-2020 年 Q2,卡尔曼滤波和 Lasso 回归误判了方向,当然此时真实仓位变动的幅度本身也较小,最新一期来看,预计 2022 年 Q3 基金电子仓位小幅下降。

四、模型总体评价

 

4.1 模型均方误差

4.2 行业配置趋势刻画
由单基金测算实践章节可知,原始模型刻画行业仓位边际变化的效果更好,修正版模型刻画仓位特定时点

绝对水平的精确度更好,因此本部分我们展示两种模型的结果,对 2022 年 Q3 的行业仓位边际变化判断基于原始模型——如果三种估计方法变动方向不一致,则以其中一致的两种方法所指示的方向为准。

4.3.1 原始模型
我们计算主动权益基金规模加权的行业权重估计值,以反映主动权益基金配置趋势,并和真实值进行对比,第一是电力设备行业的分析,其规模加权行业权重估计如下,三种方法估计值与真实值的历史趋势较为吻合但绝对水平上存在偏差,Lasso 回归估计值的波动相较卡尔曼滤波、Ridge 回归更大,模型预测主动权益基金 2022年 Q3 电力设备行业权重边际降低。

第二是食品饮料行业的分析,其规模加权行业权重估计如下,历史上三种方法刻画的趋势与真实值总体一致,但存在系统性偏差,比如卡尔曼滤波和 Ridge 回归估计值始终低于真实值,不过这并不影响对食品饮料行业配置趋势的判断,模型预测主动权益基金 2022 年 Q3 食品饮料行业权重边际降低。


4.3.2 修正版模型

统计主动权益基金规模加权的修正行业权重估计值,以反映主动权益基金行业配置绝对水平,并和真实值进行对比,第一是电力设备行业的分析,其规模加权行业权重修正估计如下,三种修正估计值与真实值的历史水平较为接近,Lasso 回归估计值的波动相较卡尔曼滤波、Ridge 回归更大。

第二是食品饮料行业的分析,其规模加权行业权重修正估计如下,历史上三种方法刻画的绝对水平与真实值较为接近。


五、总结与展望

 

本文构建了实时测算主动权益基金行业仓位的模型,并从 MSE、单基金测算实践和全体主动权益基金行业配置权重测算值与真实值对比分析等角度来论证模型的效果,限于篇幅有限,本报告并未呈现基于基金仓位测算的行业轮动策略,在后续的专题报告中我们将一一呈现,研究还有如下不足之处:
1) 研究数据的行业指数为申万一级行业收益率,而其风格上并未做中性化,可以用我们团队所构造的 CNE7行业因子收益率(风格中性化),理论上效果将会进一步改进。
2) 没有考虑主动权益基金股票仓位变化对净值的影响。
3) 没有讨论模型对基金风格配置权重估计的效果,理论上风格数量小于行业个数,测算效果会更好。
在后续研究中,我们将会不断迭代模型,力求呈现更好地研究工具。

六、风险提示

 

模型失效风险:模型历史效果不代表未来,本文对基金的分析仅仅限于方法论层面的探讨,不构成任何基金推荐建议。
经济下行风险:近期国内外市场波动较大,尤其是美股市场受加息及地缘政治影响下波动更为剧烈,基金投资存在一定的波动风险。




报告信息


证券研究报告名称:《基于机器学习的基金行业仓位测算模型—基金研究第十三期》

对外发布时间:2022年10月24日

报告发布机构 :中信建投证券股份有限公司

本报告分析师

【鲁植宸】 SAC执业证书编号:S1440522080005

研究助理:【徐建华】

研究助理:【王宏】


免责声明


本订阅号(微信号:建投量化策略徐建华)为中信建投证券股份有限公司(下称“中信建投”)研究发展部徐建华多因子与ESG策略研究团队运营的唯一订阅号。
本订阅号所载内容仅面向符合《证券期货投资者适当性管理办法》规定的机构类专业投资者。中信建投不因任何订阅或接收本订阅号内容的行为而将订阅人视为中信建投的客户。
本订阅号不是中信建投研究报告的发布平台,所载内容均来自于中信建投已正式发布的研究报告或对报告进行的跟踪与解读,订阅者若使用所载资料,有可能会因缺乏对完整报告的了解而对其中关键假设、评级、目标价等内容产生误解。提请订阅者参阅中信建投已发布的完整证券研究报告,仔细阅读其所附各项声明、信息披露事项及风险提示,关注相关的分析、预测能够成立的关键假设条件,关注投资评级和证券目标价格的预测时间周期,并准确理解投资评级的含义。
中信建投对本订阅号所载资料的准确性、可靠性、时效性及完整性不作任何明示或暗示的保证。本订阅号中资料、意见等仅代表来源证券研究报告发布当日的判断,相关研究观点可依据中信建投后续发布的证券研究报告在不发布通知的情形下作出更改。中信建投的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本订阅号中资料意见不一致的市场评论和/或观点。
本订阅号发布的内容并非投资决策服务,在任何情形下都不构成对接收本订阅号内容受众的任何投资建议。订阅者应当充分了解各类投资风险,根据自身情况自主做出投资决策并自行承担投资风险。订阅者根据本订阅号内容做出的任何决策与中信建投或相关作者无关。
本订阅号发布的内容仅为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不得以任何形式转发、翻版、复制、发布或引用本订阅号发布的全部或部分内容,亦不得从未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本订阅号发布的全部或部分内容。版权所有,违者必究。

以上是 【中信建投多因子与ESG策略组】:基于机器学习的基金行业仓位测算模型—基金研究第十三期 的全部内容, 来源链接: www.h5w3.com/python/755764.html

回到顶部