基于优化舆情因子的指数多因子择时量化交易策略思考

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:硕博论文网 点击次数:
论文字数:26585 论文编号:sb2021121922140741363 日期:2021-12-30 来源:硕博论文网
本文是一篇量化金融论文,本文通过发掘并构建能够描述上证 50 指数投资者情绪的指数舆情因子,并联合其他能够描述市场指数的因子组成指数多因子模型,经过一系列检验筛选有效因子,将其带入二分类模型——支持向量机当中预测上证 50 指数涨跌情况,构建择时策略。

1  绪论

1.1  研究背景
最早的量化投资起源于马科维茨的现代组合管理理论,这篇理论创新的将波动率定义为风险,为后来的资本资产定价模型(CAPM),套利定价理论(APT),期权定价理论(OPT)打下坚实的理论基础。19 世纪 70 年代,美国巴莱克投资公司研究并发行了世界上第一支量化基金,这跨出了量化从理论走向实际投资的第一步。随着计算机技术不断发展与数据存储处理能力的不断提高,量化金融所能延申的深度和广度也在逐渐扩大。1989 年至 2006 年期间,美国大奖章量化基金借助量化投资手段达到了 39%的年化收益率,是同期投资交易者当中的佼佼者,并且超过了“股神”巴菲特同期所能达到的 21%的年化收益率记录。虽然我国量化交易技术的发展还远不如国外成熟,但是近些年也处在迅猛发展的阶段。2019年量化公募基金整体规模增长 570 亿,净值增长和新发基金共促规模增长;指数增强、量化对冲类策略增长较多。指数增强产品中,沪深 300、中证 500 指数超额收益率分别达到 2.1%和 6.6%;而量化对冲产品全年收益甚至能够达到 7.5%,基金整体收益风险比提升。私募基金方面截至 2019 年末量化基金规模增长至2800 亿左右。大中型管理人开始在策略、团队、公司运营管理体系、客户服务等方面不断完善,逐渐走向真正意义上的、成熟的“对冲基金”。业绩方面,2019年市场中性策略实现收益 8.2%,CTA 策略实现收益 10.1%;整体延续了较好的收益特征。此外,受益于股票市场表现,宏观对冲策略、FOF/MOM 策略收益率分别为 12.7%、16.2%。表明我国量化交易水平正逐步迈向正轨。
虽然我国机构量化金融发展如火如荼,但中国股票市场却依然是一个散户居多的股票市场,发展背景与国外市场并不相同。根据上海证券交易所统计数据,中国股票市场散户投资者数量约占投资者总数的 95%。因此中国股票市场也被成为“散户市场”。由于散户大多资金有限,很多也没有受过专门的金融投资专业知识训练,因此交易行为更多带有不规范,不理性的特点,散户投资者情绪极易收到市场形势与氛围的影响,因此中国股票市场也具有很明显的情绪化现象,“消息市”“政策市”也是我国股票市场一大特点之一。伴随着科技发展与互联网的普适化,更多投资者倾向于在互联网平台交流投资建议与心得,这当然也包括散户对于股票的个人见解。股吧,论坛,微博,微信公众号等多种网站平台和软件都为投资者提供了良好的观点交换平台,每个人既是信息的制造者,也是信息的传递者。
...............................

1.2 研究内容与框架
本文从探寻多因子模型的角度出发,通过优化舆情因子并筛选有效指数因子的方式构建有效多因子集合,并通过人工智能模型——支持向量机进行训练并预测下期股票涨跌情况,从而构建能够在 A 股市场当中取得较高超额收益的股票投资策略,因此本文主要研究内容有以下几个方面:
1.2.1  舆情因子的构建
现如今市场上所使用的舆情因子大多属于间接因子,即通过如成交量,换手率等其他指标间接衡量股票投资者对该支股票的情绪值。本文通过网络爬虫技术,选取东方财富股吧为投资者舆情获取标的股吧。通过爬取东方财富股吧上证50 个股股票评论作为原始数据,并运用情感分析工具为每一条评论进行情感赋值。情感分析工具可以筛选出股票评论中能够表达情绪的词语,并通过词频,语序,语调综合判断该句话所表达的褒贬情感性质与情感强烈程度,从而达到将股吧评论的文本数据类型转化为可带入模型的数学类数据。由于上证 50 指数成分股均为业绩较好的行业龙头股与蓝筹股,因此也是东方财富股吧高热度股票。平均一支股票一年评论量可达 26800 条左右,多者可达 110000 条每年。粗略计算从 2017 年 1 月 1 日至 2020 年 5 月 31 日大致共有 4700000 条股票评论需进行情感分析并赋予情感值。因此借助人工智能处理数据不但大大提高了数据处理效率,而且还保证了结果较高的准确率。在获取每一支上证 50 个股股票评论并拟合个股舆情因子后,将当天 50 支股票的的情绪值求和以获得当天能够衡量上证50 指数的舆情因子具体数值。
1.2.2  建立多因子库筛选多个有效因子
在优化完舆情因子后,本文将通过学术论文、研究报告以及所学知识多方面获得能够衡量指数收益的各项因子,保证所得因子能够从多维度精准预测指数收益率变化。在获取多个因子后本文将通过计算 IC 值的方法对所有因子进行初步筛选,获得有效因子。再通过因子间相关性检验进一步提取因子有效能力,从而提高模型的效率和准确性。
........................

2  文献综述与理论基础

2.1 文献综述
2.1.1 舆情研究
关于交易者情绪的相关研究最早可以追溯到 1963 年,美国 Investor  Wisdom杂志刊登了交易者情绪相关文章,该文章结合当时股票市场状况,根据当时的股票数据编制了熊市情绪指数。可见有关于情绪的研究已有相当一段长的时间,接下来本文将从交易者情绪指标拟合以及交易者情绪与股价关系两方面对有关于情绪的研究理论进行梳理。
将投资者情绪拟合成舆情因子是构建投资者舆情研究策略的基础,不同的拟合方式将造成投资策略收益率大相径庭。国外和国内均有官方金融机构发布能够表达投资者情绪的指数,如美国个体投资者协会指数(AAII 指数)反应交易者情绪,预测未来股票市场 6 个月内的行情。投资者智能指数(II 指数)则从股票市场当中看涨与看跌人群比例差值表现当前市场情绪值的好坏。国内还有央视看盘指数、消费者信心指数等等。除官方机构发布的能够直接表达市场情绪的指标之外,许多学者还通过构建间接指标与复合指标探究交易者情绪指标的刻画。对于间接指标的构建国外学者 Lee、Jiang&Indro(2002)通过实证分析,发现封闭基金折价率能有效的反应交易者情绪[1]。随后国内学者杨潇(2016)研究发现,除封闭基金折价率外,股票换手率,成交量,腾落指数等间接指标能有效的测度中国交易者情绪[2]。俞红海(2015)在探究中国股市 IPO 溢价之谜时通过个体投资者在 IPO 当天相对净买入量指标间接刻画交易者的情绪值大小[3]。除去间接指标外,国外学者首先发现社交平台发表的投资者意见或媒体意见会对股票价格造成影响。Tetlock(2007)扩展了情绪指标的构建因素,通过对华尔街股票专栏的词汇进行感情分析,探究新闻媒体报道对交易者行为的影响[4]。
.......................

2.2  理论基础
2.2.1  随机游走理论
随机游走也称作随机漫步,是指根据某一事物过去的表现,无法预测将来发展的步骤与方向,接近于布朗运动。
股票市场由成千上万的投资者组成,每个投资者均为构成股市的一个单元。每一位投资者因自身知识水平不尽相同,接触到的信息不同,对同样信息的处理能力不同所导致的结果也就不同。因此单个投资者预测的不确定性使得股票价格做无规则变化。促使股票做该种无规则变化的因素有很多,如投资标的公司财务状况变化,获得内部信息,甚至是投资者的突发奇想均有可能引起股票价格发生不同程度的变化。但从长时间段的维度分析,证券价格的涨跌幅度应保持相同水平内,围绕证券的内在真正价值上下波动。当有关于证券的所有信息包括内部信息都被公开后,证券的价格波动只会反应当下该证券的供求关系,并不会在当前价格的基础上出现较大幅度的偏移。而证券本身价值高低则完全取决于上市公司的财务状况与发展前景。某一时刻的证券价格反应当前投资者的预期,而各种突发因素与随机事件推动当前价格围绕内在价值上下波动,而造成股价波动的因素并没有归规律可寻,因此股票市场价格成随机游走。随机游走理论不断发展,已经成为研究金融市场的基本框架,也奠定了量化金融分析框架的基础。
量化金融论文参考
量化金融论文参考
....................

3  指数舆情因子构建及多因子有效性筛选 ............................. 16
3.1  指数舆情因子构建 ........................................... 16
3.1.1 投资者情绪获取 ......................................... 16
3.1.2  舆情因子拟合 ........................................ 17
4  择时策略构建——基于 SVM 模型 ............................ 23
4.1 支持向量机分类基本思想 .......................................... 23
4.2 支持向量机的多分类算法选择 .................................. 23
5  指数多因子择时策略构建实证分析 ..................................... 30
5.1  模型策略构建 ......................................... 30
5.2 模型与策略的评价指标 .......................... 30

5  指数多因子择时策略构建实证分析

5.1  模型策略构建
本文通过训练支持向量机模型构建择时策略。训练支持向量机的数据为第三章中经过 IC 值打分与相关性结构矩阵处理过的因子。数据时间段选取 2017 年 1月 1 日至 2019 年 5 月 31 日为训练集时间段,2019 年 6 月 1 日至 2020 年 5 月 31日为策略回测时间段。选取这段时间作为训练集的原因在于避开 2015 年股灾与2016 年熔断机制而造成股价异常波动,当时投资者情绪普遍低迷,研究极为罕见的极端事件发生后的投资者情绪并不能有效代表在一般经济波动时期交易者情绪对股票价格的影响。
交易标的物为上证 50 指数,原因在于上证 50 指数成分股均为 A 股市场上的蓝筹股,公司运营稳定,能够有效降低策略带来的风险。
支持向量机预测时点为每日收盘后,获得当日指数相关各个因子与舆情因子带入支持向量机模型种进行分析。预测目标为下一日收盘价与开盘价差值,大于零则判定为涨,小于零则判定为跌。交易策略为若当日预测下日为涨,则在下日开盘时全仓买入;若预测下日为跌,则在开盘时清仓卖出;若出现连续预测为涨的情况,则持仓直至判断下日为跌时开盘卖出;若连续判断为跌时则保持空仓至下日判断为涨时全仓买入。选择全仓买入而不是分批建仓的原因在于,全仓买入能够最大化的获得收益。择时策略本身的意义在于规避高风险时段建仓,因此全仓买入股票的方式更加能够衡量本文所构建策略的风险识别能力,若全仓买入的收益率能够超过基准收益率,那么分批建仓的方式则更能够在降低风险的情况下获取超额收益。 
量化金融论文怎么写
量化金融论文怎么写
..........................

6  结论与展望

6.1  结论
本文通过发掘并构建能够描述上证 50 指数投资者情绪的指数舆情因子,并联合其他能够描述市场指数的因子组成指数多因子模型,经过一系列检验筛选有效因子,将其带入二分类模型——支持向量机当中预测上证 50 指数涨跌情况,构建择时策略,通过本次研究得出如下结论。
1.  市场上描述指数情况的因子有很多,但通过 IC 值打分与相关性矩阵检验等方法后,发现下跌股票占指数成分股比例(DoanP ct)、指数当日成交量(TurnoverV ol)、最近 120 日收盘价的简单平均值(MA120)、加权市净率(PB1)比其他因子有更好收益率相关性,其中下跌股票占指数成分股比例与收益率成负相关,其他因子与指数收益率成正相关。因此该市场因子队 2017 年 1 月 1 日至2020 年 5 月 31 日的上证 50 指数价格走势有更好的预测能力。
2.  在使用支持向量机模型对金融时序数据进行预测时发现,选择适当的参数与核函数能够提高模型预测值准确率。通过研究发现模型训练集准确率并不能成为衡量模型成功与否的唯一指标。通过对比参数 gamma=0.01,预测准确率为54%,波动率 25%与 gamma=0.2,预测准确率为 60%,波动率 45%的两支持向量机模型发现,前者更加优于后者。说明参数 gamma=0.2 的支持向量机模型过拟合现象更加严重,测试集外的模型预测效果较差,因此才会在策略测试时策略表现不及参数 gamma=0.01 的支持向量机模型。通过模型对比还可说明选择准确波动率更高的支持向量机模型更能够适用于股票市场,帮助规避风险。精确率较高说明模型将不易区分的样本数据均划分为负样本的能力偏高,保证了正样本的精确程度。对于股市来说,预测输出 True 结果表明第二天预测标的股票会上涨,因此会及时买入。对股票价格增长的预测更为严谨能够有效降低投资带来的损失,但相反也有可能丧失一些潜在的投资机会,这是一把双刃剑。从支持向量机模型参数设置情况角度而言,gamma=0.01 的投资策略适用于风险偏好较为保守的投资者。而 gamma=0.2 的投资策略则会承受更大的风险追寻较高的投资收益。
参考文献(略)

如果您有论文相关需求,可以通过下面的方式联系我们
点击联系客服
相关金融论文论文
QQ 1429724474 电话 18964107217