量化投资:基本面数据源
一般而言,量化投资策略不外乎择时、选股和配置,根据这三大类又可分为多个小类,如择时策略分有趋势追踪策略、反转策略和市场情绪等,选股分为多因子策略、风格轮动策略、行业轮动策略等,而配置分为套期保值策略和期现套利策略等。但事实上,这种分类往往并不绝对,一种策略在整个开发过程往往是择时、选股和配置思想中的两种甚至全部的组合,如趋势跟踪在选择有明显趋势特征证券时属于选股,而在交易中发现信号过程属于择时。但不管如何,择时、选股和配置的实施对象是数据,本节将依据不同投资品种常用的数据需求进行介绍。
—、宏观数据
宏观数据代表一个国家经济的发展现状,因此对证券市场有最直接的影响,处于牛市的金融市场时的量化投资者会偏向成长类标的的投资,处于熊市的金融市场可能更偏向于资产保值,此时的量化投资者会偏向价值类标的的投资。只要投资的资产存在风险暴露,则必然要考虑金融市场行情的影响,因此,对宏观数据的了解非常必要。在风格轮动策略中,量化投资者往往需要宏观经济数据来做支持,判断市场的情况。
比较常用的宏观经济数据包括各种行业的工业增加值、固定资产投资(不含农户)、社会消费品零售总额、国内生产总值、商品房销售面积、销售额(房地产业情况)、电力工业统计数据、就业情况、人口的成分、固定投资情况,以及居民消费水平、物价指数等。具体的数据及其解释详见附表1至附表14。此外,宏观类数据还分为区域经济数据、工业行业数据、进出口数据和资源研究数据。
二、行业数据
行业数据代表中观市场情况。目前国内的行业划分标准还不统一,常见的有证券会行业分类和申万行业分类。行业数据代表了这个行业的发展情况,根据与市场联动性,常划分为周期性行业和非周期性行业。周期性行业的代表为有色金属、钢铁、化工等,非周期性行业代表有医药行业、公用事业行业等。对于量化投资者而言,行业数据起到一个过滤器的作用,在牛市行情时常选用强劲的周期性行业,在熊市行情常选用风险防御能力较强的非周期性行业。此外,行业划分也有利于一些主题类投资,事件驱动类投资策略的开发。如战争时期人们会偏向军工股、造船和机械等相关行业,科技繁荣时会偏向互联网、电子等相关行业。金融市场存在风格轮动效应,不同市场发展阶段往往呈现个别行业发展的相对优势。
比较常用的数据包括行业基本状况(如企业个数、亏损企业个数、工业总产值、就业人口等),行业主要经济指标(如利润总额、资产负债率等),行业主要产品产量以及行业主要进出口文件等。具体的数据及其解释见附表15至附表180
三、公司数据
(一)基本信息
数据首先应能展示公司的基本信息,一般包括公司最新状况(如公司设立方式、经营范围、行业名称等),公司状态变更情况'公司关联金融品种(如与公司相关的股票)等。具体的数据列表及其解释见附表19至附表21。
(二)适用于量化投资策略的数据
针对 的策略研究大多集中于从公司的财务指标或因子进行分析。其中多因子是应用较为广泛且需要数据最全面的一种策略,本节从多因子策略的角度出发考察量化投资需要的财务数据源。
公司行情数据一般可分为基本面因子、技术因子、事件因子以及分析师预测因子。
基本面因子主要包括有公司财务方面的数据,如规模因子、估值因子、成长因子、盈利因子和偿债能力因子。
技术因子主要包括 的一些交易指标,如1月动量因子、EMA、换手率和资金流量等。
事件因子一般需要研究消化公司的及时信息并将其转化为量化投资的信号。以公司股东增持股为例,由于信息了解渠道的不对称性,一般认为,股东比外围投资者对公司有更大的知悉权,因此,股东对公司增持事件可解读为公司行情向好,可以考虑买入,相应地,减持应考虑卖出。再者,公司管理层的变动对于公司的意义也尤为重大,如乔布斯对于苹果的意义尽人皆知,可见通过管理层的变动对于判断公司未来走势也具有一定的参考价值。
分析师预测因子也可表征为市场情绪指标,情绪具有催化剂的作用,对于股市尤其如此。股价波动,简单来说就是一群投资者同时买入卖出的结果,在市场情绪向好的影响下,会有大量投资者跟风买入从而推高股价,而在情绪萎靡时大量投资者选择抛岀从而压低股价。一般而言,对公司的看多热情大多源于对公司未来盈利的评估,具有一定的参考意义。
下面主要介绍基本面因子、事件因子和分析师预测因子对应的投资策略需要的 财务数据字段。技术因子因和公司对应的股票在市场上的交易状况有关,而本节主要介
1.基本面因子
常见的基本面因子由财务中三大会计报表中的数据计算得到,包括短期偿债能力(流动比率等)、营运能力(应收账款与收入比等)、盈利能力(扣除非经营性损益后的净利润等)、长期偿债能力(长期借款与总资产比等)、风险水平(财务杠杆系数等)、股东获利能力(每股收益等)、现金流量能力(现金流量比率等)以及发展能力等,具体的数据列表及其解释见附表22至附表29。
2.事件因子
常见的事件因子包括红利分配、高管兼任变更、并购重组情况、限售股东解禁等。具体的数据及其解释见附表30至附表35。
3.分析师预测因子
分析师预测因子包括分析师投资评级(如标准化评级、评级结论等关键因子)、分析师预测指标(每股收益、市盈率等)、业绩预告表(如业绩预告类型、预告净利润等)。详细的分析师因子列表及其解释见附表36至附表38。
四、股票数据
股票是 为筹集资金发行给股东作为持股凭证并借以取得股息和红利的一种有价股份证书。每个股票都代表股东对企业拥有一个基本单位的所有权。经过20余年的发展,中国股票市场已成为中国证券市场最重要的组成部分之一。
股票是量化投资最常用的品种,其投资策略一般包括有风格轮动策略、行业轮动策略、资金流策略、动量反转策略和趋势跟踪策略等。其中风格轮动策略根据市场的发展阶段以及呈现出的风格特征进行选股买卖,如牛市时选择成长性较强的中小盘股,熊市时选择风险抵御能力较强的大盘股。顾名思义,行业轮动是根据不同市场周期特征选择行业进行投资,如在牛市可选择发展强劲的周期行业,如有色金属、煤炭等,熊市时可选择需求弹性较低的非周期行业,如电力、医药和公用事业等。资金流策略是根据市场的资金流向进行选股配置,一般认为,资金的大量涌入可以助推股价,因此看多,反之亦然。动量反转趋势跟踪策略则是根据股价的回复或趋势特征进行套利,如具有显著长记忆特征的个股趋势性较强,在股票上涨时一般具有惯性,可以选择趋势跟踪策略;而股价岀现异常值时一般认为将会回归正常状态,此时选择反转策略。
常用的股票数据包括个股交易停复牌数据,市场行情(如收盘价、最高价、日市场交易总股数、总金额等),个股回报率,日大宗交易数据(大宗交易成交价格、大宗交易成交量等),异常波动信息(异常信息编码、买入和卖出金额等),复权信息表等。具体的数据列表及其解释见附表39至附表44。
五、基金数据
基金有广义和狭义之分,从广义上说,基金是指为了某种目的而设立的具有一定数量的资金。例如,信托投资基金、公积金、保险基金、退休基金、各种基金会的基金。人们平常所说的基金主要是指证券投资基金。
基金一般可反映金融市场环境情况,如市场从业人员口中的“基金88魔咒”是指公募基金整体仓位达到88%的高位时,往往大盘就会见顶回落。一些基金的投资组合也往往常见的基金数据包括基金基本文件(成立日、基金类型等),基金净值文件(单位净值、累计净值等),除权息文件(权益登记日、除权除息日等),回报率数据(开盘价、收盘价、交易量等),资产配置文件(持股占净值比例、持有债券占净值比例等),基金财务指标数据(本期利润、期末基金资产净值等),基金数据评价(平均收益率、夏普率、詹森指数-Alpha值等),详细的数据列表及其解释见附表45至附表5U
六、债券数据
债券是政府、金融机构、工商企业等直接向社会借债筹措资金时,向投资者发行,承诺按一定利率支付利息并按约定条件偿还本金的债权债务凭证。按发行主体划分,债券有政府债券、金融债券和公司债券。按财产担保划分,债券有抵押债券和信用债券。按债券形态划分,债券有实物债券、凭证式债券和记账式债券。按是否可转换划分,债券有可转换债券和不可转换债券。按付息方式划分,债券有零息债券、定息债券和浮息债券。按是否能提前偿还划分,债券有可赎回债券、不可赎回债券。按偿还方式划分,债券有一次到期债券、分期到期债券。债券作为一种风险较低的品种,适合于风险规避性的投资者,采用债券不同品种进行套利,如不同到期债券之间的套利、同一公司债券股股票之间的套利、可转债与股票之间的套利。
常见的债券数据包括:债券基本数据(发行价格、实际发行量、发行机构、面值、到期日、信用等级等),债券回购日交易信息(如日开盘价、日收盘价等),债券现期收益率信息(年利息、现期收益率),标准券折算比例情况,债券派息信息,企业债公司债主要财务指标(如流动比率、资产负债率等)。具体的数据及其解释见附表52至附表57。
七、期货数据
目前国内期货品种包括股指期货、国债期货以及商品期货。其中国债期货由于上线时间较短且数据与股指期货数据相差不大,在此不予详细介绍。
(一)股指期货数据
股指期货全称是股票价格指数期货(SharePriceIndexFutures,SPIF),是指以股价指数为标的物的标准化期货合约,双方约定在未来的某个特定日期,可以按照事先确定的股价指数的大小,进行标的指数的买卖。我国目前只有以沪深300指数为标的的沪深300股指期货。
以沪深300股指期货为研究对象的量化投资策略基本可分有两类:①单一的股指期货品种套利;②混合品种利用股指期货剥离Beta风险的套利策略。其中,单一品种策略细分有趋势跟踪策略、动量反转策略、市场情绪策略和跨期套利策略等;混合品种策略又可分为套期保值策略、Alpha策略和期现套利策略等。所有策略都离不开股指期货基本信息和交易数据,当然有些策略还需要合约成交量和持仓排名的数据。
1.股指期货品种基本信息丈件
股指期货的基本信息数据包括合约乘数、标的指数、交易时间、最后交易日、交易保证金等。具体的字段参见附表58。
2.股指期货交易数据
股指期货交易数据属于套利策略中常用的数据字段,包括收盘价、开盘价、最高价、最低价和交易量等大多数投资策略如趋势跟踪、动量反转、基于开盘区间的异常值高频套利和期现套利等都是基于交易数据执行的。基本交易数据较为完整的数据列表请参见附表59。
3.合约成交量及持仓排名
对于股指期货而言,在每一个交易时点都有对应的四个活跃的期货合约,分别为当月合约、次月合约、当季合约和次季合约。为了避免过大的冲击成本,在交易时往往选择流动性高的合约,也称主力合约。目前市场上还没有实时更新的连续主力合约数据源,对于程序化投资方式而言,利用计算机代码筛选主力合约是数据处理的基本要求。目前,大多利用成交量字段来判断主力合约。
股指期货仓位的结构也是投资者关注的信息之一。股指期货是我国金融市场流动性最高且高频交易最为集中的地方,价格的变化往往稍纵即逝,很难把握行情走向,但仓位结构相对比较稳定,短时间内很难出现暴涨暴跌等砸盘行为。虽然并不绝对,但总的来说,多头力量大于空头力量意味着市场总体看好,这对价格上涨有助推作用;反之,亦然。事实上,大多数利用市场情绪的投资策略也是基于持仓机构进行指标构建的。
常见的合约成交量数据包括合约代码、交易所代码、名次、成交量、操作方向、比上交易日增减等。常见的合约持仓排名数据包括交易日期、品种、净多仓、净空仓、多单增加等信息。详细的字段及其解释见附表60至附表61。
(二)商品期货数据
与股指期货相类似,商品期货的投资策略可分为单一品种策略和混合品种策略,与股指期货不同的是,商品期货的混合品种策略分为跨市场策略和跨品种策略。其中单一品种策略与股指期货类似,包括趋势跟踪、动态反转和跨期套利等;跨市场策略比较常见的是商品期货与现货之间的基差套利;跨品种策略大多集中于有相似品种特征的商品期货合约对,如沪铜和沪铝等。
跨品种套利的主导思想是寻找两种或多种不同但具有一定相关性的商品间的相对稳定关系(差值、比值或其他),在其脱离正常轨道时采取相关反向操作以获取利润。根据套利商品之间的关系,跨品种套利可分为相关商品套利和产业链跨商品套利两种类型。可代替性跨品种在功能、播种面积、产量上等存在可替代性,价格将会反映出一定程度的相关性,而产业链跨品种处于同一产业链上,各商品的价格因受成本和利润的约束也会具有一定程度的相关性,例如大豆与豆粕的套利、大豆与豆油的套利、螺纹钢与铁矿石的套利。
量化投资所依赖商品期货数据包括商品期货品种基本信息(如最小变动单位、每日价格波动限制、交易时间、交割日期、交易保证金),商品期货交易数据(日开盘价、日最高价等),商品期货交易量及仓位状况(如持买单量、净多仓、空单增加),现货价格信息数据(如最低价、最高价、产地)等。详细的数据列表及其解释见附表62至附表65。
八、指数数据
市场指数是指由各类服务机构编制的表明某一市场变动的指数参考数字。比较常见的有沪深300指数、上证指数、美元指数、道琼斯指数等。一般指数可反映其编制对象的总体情况,如沪深300指数反映沪深市场的市场行情、农林牧渔行业指数反映农林牧渔行业
常见的指数数据包括指数基本信息文件(基准日期、基准点数、指数类别、计算公式),股票指数样本股基本信息文件(上市日期、证券代码、行业类型、权重)。详细的指数相关信息及其解释见附表66至附表68。
九、衍生数据
量化因子仓库
随着量化投资在中国发展愈演愈烈,人们对策略开发的效率、数据的全面性和精准性等有了更深入的要求,为了更好地推动量化投资的发展,特别是在中国国内的发展,提高金融市场投资者策略构建能力、策略绩效评估及风险控制水平,一个能够反映和预测盈利能力的量化因子仓库是不可缺少的。
总的来说,量化因子仓库至少包括以下九大类:宏观因子、行业因子、基本面因子、技术因子、行为因子、高频因子、衍生物因子、事件因子和复合因子。常见的因子包括表5-1至表5-9几个方面:
表5-1宏观因子表5-2行业因子表5-3基本面因子
表5-4技术因子表5-5行为因子表5-6高频因子表5-7衍生物因子
表5-8事件因子表5-9复合因子