投资者情绪对上证指数价格波动的影响研究
——以股吧为例

2021-11-13 10:33兰州交通大学数理学院龙江
商展经济 2021年20期
关键词:格兰杰上证指数分词

兰州交通大学数理学院 龙江

股市不仅是衡量经济运行的指标,还可以为未来经济判断提供重要参考。长期以来,股市一直受到“政策市场”“信息市场”和过度投机等问题的困扰,股市上充斥着各种各样的新闻和评论。随着“发布、传播、影响”的过程,这些新闻和评论也影响着投资者在股市中的情绪,股民的情绪决定着交易行为,从而使股市中的新闻和评论迅速反映在股价上。散户在股吧等载体的帮助下,释放自己的建议和情绪,这些建议和观点在网络上迅速传播和交融,最终影响人们的实际决策。许多学者提出了构建投资者情绪指数等指标分析股票波动的方法,从而将投资者情绪与股票变化联系起来[1~3]。在现有的市场情绪研究中,有的学者通过选择合适的情绪指标来反映市场情绪[4,5],还有一些学者利用文本数据中的隐含信息来构建情绪指标[6~8]。鲁晓鹏等[9,10]学者认为新闻文本数据中包含利空或利好的情感倾向,可以从中构建情绪指标。在研究投资者情绪对股票走势的影响时,郭晓菲等[11]通过构建情绪指数将股民的情绪量化,从而对两者的关系进行实证分析。

1 本文主要工作

(1)利用 Python软件对上证指数股吧一段时间内的评论文本数据进行爬取,并进行清洗及分词处理。

(2)对抓取的评论进行情感倾向分析。利用情感词典提供的情感词汇对评论里所有的词汇赋予情感权重,计算出每条评论最终的情感得分,再汇总每日所有评论情感值的均值作为反映投资者情绪的指标。

(3)情绪指数与上证指数价格波动的关联分析。对计算得到情绪指数与上证指数相关指标进行相关性分析,并通过格兰杰检验判断情绪得分是否对上证指数走势产生影响。

2 投资者情绪指数构建

2.1 数据采集

本文利用Python软件中的Selenuim包和Lxml包对东方财富网上证指数吧版块的评论信息进行爬取。获取到2020年 5月21日到2021年5月18日的评论文本数据,筛选出 10万多条评论信息作为市场情绪的文本来源,并使用网易财经网选取对应时间的上证指数相关指标作为研究对象。

2.2 文本清洗

爬取的股吧帖子里大多数评论是股民对股市行情的看法,但也存在一些无用帖,比如广告帖等,这些帖子的内容会对后续计算情感指数产生一定影响,需要去除这部分数据。文本去噪主要去掉以下几类信息:(1)评论为空的帖子。(2)评论中只有数字、字母或者表情包的帖子。(3)重复的评论帖子。(4)与股票完全无关的评论帖子。

2.3 文本分词

本文采用jieba分词库对清洗后的评论文本进行分词处理,由于词典的覆盖面有限,故通过词典与人工结合的双重分词方法,然后对分词后的评论进行词频分析,截取词频排名前50的词语,通过调用Python语言中的WordCloud进行词云图展示,如图1所示。

图1 词云图

2.4 删除停用词

在评论文本中有许多对情感分析毫无意义的词,如“的”“你”“谢谢”“是”“老师”“狐狸”“说”“今天”等都没有明确意义和明显情感倾向的词被称为停用词。由于评论中包含大量停用词,为了提高效率和分析效果,需要将这类词过滤。

2.5 计算情感得分

停用词删除之后,本文使用BosonNLP情感词典,将其与分词后的文本进行匹配,从而对评论文本进行打分。投资者的情绪倾向是通过评论情感得分来判断的,情感得分的范围是0~1,得分越接近1,评论情感越积极,分数越接近0,评论就越负面。

将上证指数股吧的评论以日期划分,基于情感词典对每日市场情绪指数进行计算,计算公式如下:

其中,sentimenti表示每条评论的情感得分,情绪指数emotionsT计算公式表示在第T日所有评论的情感得分均值,情绪指数的范围也在0~1。如果情绪指数趋近于0,表示市场反应越低迷,若情绪指数趋近于1,则市场反应越积极,情绪指数趋于0.5,则市场情绪越平稳。每日情绪指数emotionsT反映了当天市场的情感强度。

3 投资者情绪指数对上证指数波动的影响分析

本文采用情感词典的情绪指数构建方法,计算了2020年5月21日—2021年5月18日上证指数的日情绪指数,并绘制了日情绪指数与上证指数开盘价的时间序列,如图2所示。

图2 情绪指数与上证开盘价格趋势图

由图2可以发现,情绪指数的波动在一定程度上反映了上证指数开盘价格的波动趋势。为了检验情绪指数对上证指数价格波动的影响,对日情绪指数和上证指数开盘价进行格兰杰因果关系检验。原始假设H0表明,情绪指数的变化不是上证指数开盘价变化的格兰杰原因。F统计值和P值用来验证是否拒绝原假设H0,置信水平分别为1%、5%、10%,检验结果如表1所示。

表1 Granger因果检验

由表1可以看出:当滞后阶数为1、2、3时,在5%的置信水平上检验结果都拒绝原假设HO,说明情绪指数是上证指数开盘价格变化的格兰杰原因,情绪指数的波动先于上证指数的价格波动。当滞后阶数为4、5时,在5%的置信水平上不能拒绝原假设H0。研究表明,情绪指数在短期内对上证指数的开盘价格有一定的影响,但从长期来看,情绪指数的变化并不影响上证指数的波动。接着计算情绪指数与上证指数开盘价的相关系数,结果如表2所示。

表2 相关系数

由表2可以看出:上证指数开盘价格和每日情绪指数的相关系数随着时间滞后的增加而减少,表明情绪指数对上证指数价格波动影响具有一定的时效性,当日股民情绪变化,对次日大盘影响最大,随着时间的推移,情绪指数对后续市场的影响逐渐减小。

4 结语

本文选取上证指数2020年5月21日—2021年5月18日的交易数据,结合对应时间里东方财富在线股吧中的股民点评文本数据,构建了情绪指数。对市场情绪变化与上证指数开盘价波动进行了相关分析和格兰杰因果关系分析。研究结果表明:短期内,投资者情绪是上证指数价格波动的影响因素。在未来工作中,我们会尝试探索新的情感词典构建方法以提高评论的情感识别精度,同时股吧里的评论者不能代表市场上的所有投资者,只是部分影响因素,后续会针对这些问题进一步优化。

猜你喜欢
格兰杰上证指数分词
分词在英语教学中的妙用
结巴分词在词云中的应用
结巴分词在词云中的应用
国内外铜期货市场的格兰杰因果检验分析
上证指数VaR和CVaR的比较研究及实证分析
上证指数VaR和CVaR的比较研究及实证分析
融资融券对我国上证指数波动影响的实证分析
进出口贸易对我国城镇化发展的影响
临终的医生与关怀的本意
中国股市九次暴涨暴跌回顾