APP下载

证券研报的文本挖掘与分析

2023-12-07吴轩艺

电脑知识与技术 2023年30期
关键词:研报词频分词

吴轩艺

(贵州财经大学,贵州 贵阳 550025)

0 引言

我国的资本市场具有“融资投资、市场定价、资源配置、产权管理”等多种枢纽功能,能够有效推动实体经济、促进企业创新。党的二十大报告中也论述:在实现中国式现代化的道路上,需要大力发展多层次资本市场,而资本市场的健康发展也能够满足投资者对实体经济多样化的金融需求”。

在资本市场中,周期性的波动除了经济自身的周期性规律外,还有政治、外交、科技、产业结构、情绪等诸多外因的影响,而股票市场作为其中之一,是与普通投资者联系最为密切,参与度最高的资本市场。大量的股民常常带着投机心理参与投资,而并不具备专业投资知识,随着证券研报的出现,让普通投资者在一定程度快速了解行业概况上发挥了巨大的作用。证券研报即证券研究报告,指的是证券公司为提供投资咨询服务而发布的具有一定市场情绪偏好的报告。在信息大爆炸的时代,研报又细分为行研研报,个股研报,策略报告,新股研报,券商晨报,每日资讯等,根据中国结算官网发布的报告,我国股民数量已破两亿人次,除了专业机构或公司能够进行深入实地调查、获得一手的投资资料外,绝大多数的投资者都是依靠各券商分析师发行的研报来作为投资的依据[1]。

但是投资者仅靠一两篇研报并不能做出正确的投资行为,应博采众长,通过大量研报比较与分析,而由于其精力有限无法集体阅读,必定就会产生“拍脑袋”决策投资行为;而实际投资活动中研报带有滞后性,并且大多数普通投资者都追求短期投机,依研报投资决策的股民在风雨突变的股市里其收益率也会大打折扣。从另一角度看,研报之所以依旧重要,主要因为研报是分析师花费大量的时间和精力查阅大量行业信息,深入市场多渠道采集样本,通过大量深度思考而得到的研究结果,有其内在的严密逻辑、独特看法以及对行业本质及规律性认识的研究[2]。虽然对于普通投资者在大多数投资活动上具有时间差、低回报率的特点,但是对于创业者、在校毕业生以及经济爱好者等人群来讲,研报是快速了解行业、判断其发展前景、预测其经济走势的利器。通过获取海量研报的重点、热点等相关信息快速知晓行业框架或行业前景,让研报信息充分发挥其最大价值。

伴随着大数据的深入发展,除了大量对于结构化数据的研究外,众多文本性数据的分析技术也渐渐成熟。利用机器算法将语言文本进行挖掘、分类、抽取、识别、预测等又让学者们发现了文本的其他重大信息。但是近年来文本数据挖掘分析多应用在电商评论、社交媒体留言等方面,很少有学者将其文本挖掘与分析技术应用于金融行业研报[3]。主要原因是其金融领域产生更多的是结构化数据,如金融交易数据、历年国内生产总值、可支配收入支出等,因此大都从定量的角度去构建量化交易策略、建设金融计量模型,探讨经济数据关系等,而研报作为金融市场上为数不多的具有完整逻辑体系的非结构化数据,其传递的信息量也具有巨大的参考价值,不只体现在投资领域,更多也体现在判断行业规律以及预测行业发展前景上。并且随着人工智能与互联网的发展,人们获取信息其背后都离不开机器对内容的理解。文章将文本数据挖掘与分析应用于金融领域的海量行业研报上,通过对非结构化数据进行分析[3],快速从大量研报中找到行业关注重点与方向,满足人们挖掘信息的相关需求。

1 研究工具

阅读分析单个或者少量的研报可以通过传统的人工方法完成,但在如今爆炸似的研报信息面前,无法再单纯地依靠人工整理实现。而伴随着大数据应运而生的机器学习却能很好地解决该问题。Python是一种面向对象的解释型计算机程序设计语言,其语法简洁清晰,承载的包和库种类多样,在文本挖掘领域有着广泛的应用。一般对于结构性数据人们采用pandas、nump、matplotlib库进行分析与统计,而对于中文文本分析并应用广泛的是jieba,collections,wordcloud,NetworkX等库。

1) jieba是强大的Python分词库,主要用于中文分词、关键词提取、词性标注、词位置查询等。在中文里面,词是最小的能够独立运动的且具有意义的语言成分;与西方语言不同的是,词与词之间没有空格之类的标志,因而jieba库的分词原理主要利用中文词库来确定汉字之间的关联概率,也结合相邻的字同时出现的次数越多,越有可能构成词语的规律来进行统计,找出基于词频的最大切分组合,同时在jieba中还可以自定义词典,通过用户添加任意词组进行更加贴合情况的分词。jieba 分词主要有三种模式[4]:精确模式、全模式、搜索引擎模式。

2) collections 库中的 Counter 计数器通常用于词频统计,可避免使用 for 循环来手动统计词频。Counter 主要对文本数据中重要词汇进行迭代并将出现次数进行统计,最终返回一个字典,通过观察词出现频次多少的变化,来确定热点及其变化趋势。

3) wordcloud是自然语言处理中常用的方法,可以比较直观而又突出其重点,关键词在词云图中凸显的大小和区域,让人在视觉上给予更多的关注。主要代码如下:

表1 wordcloud代码

4) NetworkX 是Python 编程语言中用于语义网络分析的库,其灵活的数据结构和算法,可以轻松创建各种类型网络图来对语义关系进行分析,可视化展示也使其成为数据分析领域中不可或缺的工具之一。其基本原理是将文本数据转化为语义网络,从中提取出关键词和关系,建立节点和边的图模型。

2 文本挖掘

2.1 数据爬取

利用爬虫技术收集东方财富网上汽车整车行业近两年的研报内容,由于东方财富网的行业研报数据是储存在同一个url 地址的表格中,爬虫程序利用while 循环实现自动表格翻页爬取[5],将数据保存下来,部分代码如下:

def yanbao():

count = 1

while count <= 25:

for i in range(1,2):

def get_data():

...

count = count+1

if count>=26:

Break

同时研报文本信息在‘报告名称’所记载的网页中,程序通过读取表格中每一个‘报告名称’中URL地址获取其内容,部分代码如下:

driver=webdriver.Chrome()

data=pd.read_excel(r"D:/Users/python write/Python-cut/1.xlsx")

contents=[]

def get_contents():

for url in data[′报告名称′]:

driver.get(url)

最后合并两者内容并以excl形式保存到本地,如表2所示:

表2 爬取文本信息

共获取到2021年9月27日到2023年1月11日的1 171条行业研报文本数据,为了数据完整性,同时爬取了其日期、评级、评级变动、机构名称等信息。粗略地浏览一遍报告内容,存在很多废词、标点等无用信息,需要进一步处理。

2.2 词频与词云

导入中文分词jieba 库,运用jieba.lcut()语句进行精确分词,即把文本精确切开后,若经过组合还能还原成之前文本同时不存在冗余词,同时由于时代的发展会产生大量新词,再加上金融领域会有一些特有专有名词,于是构建自定义词典再进行分词;然后为了不影响文本分析的进行,利用停用词stopwords,将文本中没有任何含义的词筛选出来;最后从collections库导入 Counter 用于词频统计,将之前处理好的文本中的词进行累计计数,之后利用sort函数进行排序,将排序靠前的词,即研报中提及次数最多的词和词频数提取出来,部分数据见图1:

图1 词频统计

词云也叫文字云,将文本中的关键词进行渲染以图片形式呈现,更加直观地了解文本主题。导入wordcloud 库,图片蒙版选择一张本地自有图片,最终将研报文本词库以词云图的形式呈现,见图2。

2.3 语义网络分析

基于语义网络分析法,对汽车整车行业研报进行网络分析和关系挖掘,语义网络中的节点为主题,而边则表示节点之间的关联关系。以此了解研报中对整车行业做出的主题分析,重点领域介绍等,也可为研究整车行业的发展趋势和政策制定提供参考。文章通过 networkx 等库,构造词频矩阵和 TF-IDF 矩阵,并计算相关系数,最终得到了词共现分析网络的可视化,可以更好地观察和分析网络结构和特征,如图3所示。

图3 语义分析网络图

3 结果分析

文章发现在获取的汽车整车行业研报文本数据中,除了本身关于汽车一词提及多达8 314 次外,“同比”和“环比”一词分别提及6 258 次和4 817 次,词云图也呈现出“销量”“需求”等词。说明研究报告大多数主要从各汽车企业销售情况入手,比较其年月的销量,分析市场需求。

同时词频中“增长”提及3 636 次,“新能源汽车”提及了2 426 次,“新能源车”提及1 197 次,“新能源”提及1 853 次,“政策”提及1 293 次,很明显汽车行业主要发展前景集中在新能源车上,这也与我国绿色发展政策密不可分,国家一直坚持绿色发展之路,共创美好未来,并且从2020 年9 月就明确提出了2030 年“碳达峰”与2060年“碳中和”的目标,新能源已经被称为第三次能源革命,新能源产业在未来会将是一片新蓝海[6],其中不乏大量的就业、创业机会。

研报中“智能”提及了2 091 次,词云图也直观地看出“科技”“电动”等词在文本中是重点。新能源车除了在绿色环保上下功夫更朝着智能化方向推进,不断进行迭代与创新,推动着汽车产业链的变革。同时“零部件”一词提及了2 218 次,在汽车产业上下游中零部件相关的产业链也是当下关注的热点。

“比亚迪”和“特斯拉”分别谈及1 926 次、1 763次,结合其描述可以看出,两家公司在新能源车行业销量遥遥领先,作为行业标杆,对其研发投入和发展规划都值得关注和研究。

从词频图上还可以看到,“风险”“不及”“建议”等词也多次出现,因为研报仅仅是提供一种投资建议,依然存在很多不确定性。毕竟每一个行业都会有周期性或者突发事件,如词云中“疫情”一词也出现其中,在词频中被谈及到了1 573次,说明突发事件也会对汽车行业的发展造成相应的影响。因而在预测行业前景或者做投资决策时,也需要考虑到相关的问题,防患于未然。

在语义分析网络图中,研报整体从新能源汽车、销量、智能化、用车等主题来进行研报的扩展分析,在新能源汽车主题下,主要从企业角度,如著名的特斯拉、中国的吉利、长安、长城等车企来讨论,其中有关注到该行业自主研发芯片、电动化的发展;其次对于汽车行业的现状也有谈及,如产业链、零售、消费、政策等主题;同时也有一部分谈及了疫情对汽车行业销量的影响;并且从增长、有望、提升主题词看,研报整体对汽车整车行业的智能化、能源化是抱有积极态度的。

4 总结

文章通过Python技术对研报文本的挖掘与分析,从词频、词云、语义网络角度出发对汽车整车行业作了大致的梳理,明确了该行业发展方向、研究热点以及龙头企业等相关信息,提高了阅读海量研报的效率和准确度,为有研报阅读需求的人们提供了更加高效的方案。

猜你喜欢

研报词频分词
券商最新研报荐股一览
券商最新研报荐股一览
基于词频分析法的社区公园归属感营建要素研究
分词在英语教学中的妙用
券商最新研报荐股一览
券商最新研报荐股一览
词频,一部隐秘的历史
云存储中支持词频和用户喜好的密文模糊检索
以关键词词频法透视《大学图书馆学报》学术研究特色
论英语不定式和-ing分词的语义传承