APP下载

融合语义与情感分析的区块链产业新闻监测研究

2020-11-06吴俊邵丹睿姜尚杨帆

现代情报 2020年11期
关键词:区块链深度学习

吴俊 邵丹睿 姜尚杨帆

基金项目:国家社会科学基金“推动新一代信息技术与制造业深度融合研究——基于新时代和新工业革命的视角”(项目编号:18VSJ054);国家重点研发计划项目“基于模式创新的科技咨询服务平台研发与应用示范”(项目编号:2018YFB1403600);北京市社会科学基金规划项目“基于大数据的北京市共享单车产业监测与发展趋势研究”(项目编号:17YJB018)。

作者简介:吴俊(1971-),男,副教授,博士,硕士生导师,研究方向:文本挖掘与服务创新。邵丹睿(1996-),女,硕士研究生,研究方向:文本挖掘。姜尚杨帆(1997-),女,硕士研究生,研究方向:文本挖掘。

摘要:[目的/意义]前沿技术孵育的新兴产业发展演进快,但因统计数据迟滞,产业监测难而备受研究者关注。[方法/过程]以2014-2019年36氪网站互联网区块链新闻为数据样本,提出纳入协变量的结构化主题模型(STM)与深度学习情感分析技术结合的新兴产业新闻文本监测方法,通过监测媒体报道的产业新闻热点强度变化,文本情感倾向对新闻热点强度的时序影响,发现并跟踪新兴产业热点及趋势。[结果/结论]2014-2019年,69%的区块链新闻主题聚焦于区块链的产业应用和比特币等数字代币的发行与交易。文本的语义和情感分析显示,2017年以来,中国的区块链产业发展存在一定的媒体炒作特征,但媒体对各类数字代币发行与交易由褒转贬的情感倾向变化可以对区块链隐含风险起到预警作用。[创新/价值]提出的产业新闻文本监测方法具有准实时性,能与传统的事后统计指标监测方法互为补充。

关键词:区块链;产业新闻;结构化主题模型;文本情感分析;深度学习

DOI:10.3969/j.issn.1008-0821.2020.11.003

〔中图分类号〕G203〔文献标识码〕A〔文章编号〕1008-0821(2020)11-0022-12

Identifying Development Focus and Trend of Blockchain Industry Through

News Text Mining:A Topic Modeling and Sentiment Analysis Investigation

Wu JunShao DanruiJiang Shangyangfan

(School of Economics and Management,Beijing University of Posts and Telecommunications,

Beijing 100876,China)

Abstract:[Purpose/Significance] How to identify the development focus and trend of emerging technology,like blockchain,and its industry have attracted more and more attention from academics and practitioners.[Method/Process]3983 blockchain news collected from China famous TMT media—36kr.com was analyzed using structural topic modeling and deep learning enhanced sentiment analysis.[Results/Conclusions]This paper revealed that:(1)blockchain industry development in China during the period of 2014 to 2019 can be reflected by 7 key topics which focused on the domain applications of blockchain technology,initial offering and transaction of bitcoin and digital currency.(2)Although positive sentiment tendency dominated during the research period of 2014 to December 2019,the sentiment of news related to the issuance and transaction of digital currency has clearly shifted from positive to negative since January 2017,implying concerns about speculation in the encrypted digital currency market.The contribution of this paper is reflected not only by proposing a new approach to identify the development focus and trend of technology frontiers but also validating its application in the blockchain industry monitoring.

Key words:blockchain;industry news;structural topic modeling;sentiment analysis;deep learning

前沿技術是具有前瞻性、先导性和探索性的重大技术,是培育新兴产业的基础[1]。以大数据、区块链等为代表的前沿科技革命,在促进技术、资源、产业和市场跨时空、跨领域融合,新业态、新模式不断涌现的同时,也对产业监管提出了新要求、新挑战。如何有效认清新兴产业发展前景,识别潜在风险,促进产业包容性发展,逐渐引起各级政府监管部门及学术界的兴趣与关注。

前沿技术孵化的新兴产业具有发展演进快、专业壁垒高、跨界融合性强的特点,尽管有学者提出要各级统计部门加快基于企业上报数据来构建战略性新兴产业评价指标体系[2],但基于统计数据开展新兴产业监测的方法或者受限于数据不可得,或者存在监测分析的时滞,亟待监测手段创新。

作为人工智能的代表性技术之一,自然语言处理领域的文本主题模型(Topic Modeling)和情感分析(Sentiment Analysis)能够帮助产业经济研究者从海量非结构化文本中提取潜在语义主题,量化文本的情感变化。文本主题模型是一种典型的非监督机器学习(Unsupervised Machine Learning)方法,优势是无需数据样本标签(如预先人工标注的文本主题类别)即可实现海量文本的自动分类。文本情感分析则能量化文本的情感倾向(如正向、中性、负向等),从而帮助研究者从海量文本中提取表征主观特征的代理变量。应用文本主题模型方法挖掘专利文本开发专利知识图谱[3],发现并持续跟踪细分领域的前沿热点技术[4]正在兴起,也有学者综合应用机器学习(随机森林模型)和深度学习(卷积神经网络模型)技术构建互联网新闻文本消费情感指数,捕捉消费者信心波动[5]。但鲜有研究者从产业监测视角,通过挖掘互联网科技财经媒体新闻来追踪前沿产业热点与演化趋势。为弥补这一缺憾,拟通过对知名科技财经媒体新兴产业报道的新闻文本挖掘,揭示新兴产业领域的轮换热点与发展趋势。本文提出融合结构化主题模型(Structural Topic Modeling)和深度学习情感分析(Deep Learning Based Sentiment Analysis)技术的新思路,原因有三:①针对新兴产业的数值型统计数据较为稀缺,也常常滞后,而对应的科技财经新闻往往能及时报道最新动态,大量新闻文本蕴含的潜在语义主题以及遣词用语反映的文本主观倾向为产业监测提供了丰富的数据来源。②结构化主题模型是传统LDA主题模型的新发展,能够量化文档协变量(如时间、情感倾向等)对文档隶属主题以及主题内容的影响,帮助研究者从更细的粒度考察媒体报道的新兴产业热点主题随时间、随情感倾向变化特征与趋势。③深度学习情感分析是对传统基于规则和基于统计的机器学习方法的新拓展,通过构建的双向长短时记忆神经网络(Bi-directional Long Term and Short Term Neural Network,Bi-LSTM)能够自动学习文本特征表示,达到较高的精确度并具备较好的文本泛化能力,输出的文本情感倾向类别可用作表征媒体主观意见的代理变量。

本文选取区块链作为新兴产业代表的理由如下:①全球著名咨询公司Gartner将区块链技术列为2017-2018年十大前沿战略科技之一,看好其从数字货币基础到企业应用的广泛潜力[6]。②2017年以来区块链创业公司风起云涌,大量的传统企业也纷纷投资区块链技术与相关应用,区块鏈新兴产业迅速发展起来,大量的互联网媒体也争相造势,不断引爆区块链舆论热点。③区块链在中国的发展具有技术演进快、专业化程度高、与众多传统产业交叉融合等特点,各级政府的统计数据公开少、更新慢,如何从纷繁芜杂的互联网产业新闻中识别区块链发展热点及演进趋势,准确把握区块链技术与应用创新节奏,成为新经济研究者和各级政府监管部门关注的焦点。

1相关研究

11热点话题发现与结构化主题模型

从互联网新闻中发现并识别新兴和热点话题可以使用文本挖掘中的主题建模(Topic Modeling)方法[7-8]。潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)是最常见的主题模型[9],在实际应用中,通过输入经预处理的文本语料,预定义的主题数,即可由算法输出文本语料对应的主题概率分布以及每个主题下语义最相近词项的概率分布。

LDA主题模型已在诸多领域广泛应用,例如,通过对区块链专利文献的挖掘,从更细粒度识别校企重点研究方向和技术薄弱环节[10],分析社交媒体中用户的造谣和举报行为是否存在性别差异[11],基于社交媒体用户评论文本的犯罪事件挖掘及犯罪预测[12],从酒店用户评论中提取用户对酒店满意度的多个维度[13],对科技文献主题进行划分,将主题多个特征指标赋权叠加构建主题新兴指标,预测新型主题未来趋势[14]等。也有学者采用文本主题、作者与时间关联的ATOT主题模型,分析企业技术专利的动态变化和产业链各环节的技术发展状态[15],采用层次Dirichlet过程模型分析管理科学领域的前沿研究主题时序演化特征,绘制学科知识演化图谱[16],融合主题模型与卷积神经网络预测用户对APP的评分,进行推荐[17]。

LDA主题模型在文本语义挖掘实践中存在着无法揭示文档元数据(Metadata)对文本主题和内容影响的不足。在狄利克雷-多项回归主题模型(DMR)和稀疏可加生成模型(SAGE)基础上[18-19],Roberts M E等[20-21]提出了结构化主题模型算法(Structural Topic Model,STM),可以灵活地将多个文档协变量作为先验分布纳入主题模型考察其对文本主题强度(Topic Prevalence,即文档-主题概率分布)与主题内容(Topic Content,即主题-词语概率分布)的影响,这为探索区块链新闻热点主题随时间、文本情感倾向类别(如负向、中性和正向)等协变量的变化开辟了新途径。STM主题模型与LDA主题模型的比较如图1示意:

STM中的文档主题分布服从对数正态分布与多项式分布非共轭,因此采用渐进变分EM迭代算法完成模型参数拟合与估算。作为基础LDA模型的重要新拓展,STM相对LDA具有明显的预测性能优势[21-22]。近年来,国内外学者将结构化主题模型应用于探索新兴研究领域的热点主题与演进脉络[23],分析航空事故报告文本来识别飞航领域的故障主题分布与趋势[24]。本文也尝试利用STM实现:①产业新闻热点语义主题提取与识别;②热点主题随时间和文本情感倾向的变化特征分析。

12基于深度学习的文本情感分析

文本的情感分析又称为意见挖掘,通过对主观性文本的情感倾向性判断[25],给出情感极性的识别[26](如正向、负向或中性)或者情感极性类别概率(如某文本属于正向类别的概率是073)。通过对互联网新闻文本的情感挖掘,可以反映网络大众对特定事物的主观态度、意见倾向。文本情感分析技术已大量应用于网络舆情监测[27]和基于用户评论的消费者态度、行为偏好分析[28]等。

近年来,文本情感分析技术已从早期的基于情感词典规则、基于统计的机器学习,发展向基于神经网络的深度学习[29]。考虑到区块链领域专业词汇多,语义多元的特性,传统基于通用词典的情感分析无法根據上下文和不同的应用领域迁移,浅层的机器学习分类方法也难以适应多场景海量复杂文本的处理,本研究尝试构建双向长短时记忆神经网络(Bi-directional Long Term and Short Term Neural Network,Bi-LSTM),来对区块链新闻文本进行情感倾向分析。应用Bi-LSTM神经网络做文本情感分类的原理示意见图2。

2研究设计

21研究框架

图3展示的是融合结构化主题模型和深度学习情感分析技术的产业新闻监测模型及与传统方法的比较。既有的方法大多需要新兴产业统计数据,存在着数据获取难,事后监测分析的特点。本文提出的方法以互联网产业新闻文本为对象,可准实时开展事中监测分析,尤其适用于一些快速发展的新兴产业,是对传统方法的有益补充与增强。本文方法的创新集中在图3虚线框部分,首先,应用结构化主题模型从海量产业新闻中提取文本主题及强度(主题概率分布)用以表征产业热点。之后,应用双向长短时记忆神经网络完成新闻文本情感倾向的分类。最后,将时间和情感倾向类别作为协变量分析其对产业新闻主题强度的影响,最终得到海量新闻文本所映射的新兴产业热点变化与发展趋势。

注:虚线框内部分为本文的主要创新点。图3融合语义与情感分析的新兴产业新闻监测模型及与传统方法比较

22数据源选定与采集

研究选取36氪网(36kr.com)作为数据来源,主要基于两方面考虑:首先,该网站是国内报道互联网新闻热点以及前沿技术的知名科技媒体,在Alexa网络科技类网站中排名靠前,用户访问量与产业影响力较大;其次,与其他网站相比,该网站较早跟踪区块链的发展,相关文章持续覆盖时间长,内容质量高,能够较好地反映区块链产业热点发展历程与演化动向。

在36氪官网(http://36kr.com/)搜索区块链关键字,编写爬虫程序,爬取2013年11月-2019年12月区块链相关新闻,去重后发现,2013年仅1篇,删除后共3 983条,采集的数据集包括标题、全文、作者、发布时间等字段。对采集的数据集进行预处理,发现获取的数据集记录完整,无缺失或字符紊乱等异常情况,可以直接用于后续分析。

23主题建模相关参数的确定

对结构化主题模型迭代拟合需要设置最优主题数,LDA主题模型最优主题数的选择通常以困惑度指标(Perplexity)为评价指标,困惑度值越低说明模型的泛化效果更佳[30]。STM主题模型最优主题数的确定借鉴了领域较新的研究发现,即聚类较好的文本主题,多具有主题内词语语义一致性高,主题间词语语义区隔显著的特点[31]。因此,借鉴Mimno D等[32]提出的语义一致性(Semantic Coherence)指标衡量主题语义收敛程度,公式如下:

Ck=∑Mi=2∑i-1j=2logD(vi,vj)+1D(vj)(1)

其中D(vi)和D(vj)分别表示词vi和vj在文档k中出现的次数,D(vi,vj)表示vi和vj两个词同时在文档k中出现的次数。另外,借鉴Airoldi等提出的FREX指标度量不同主题语义区分程度。第v个词项在第k个主题下的FREX值计算公式为:

FREXk,v=ωECDF(βk,v/∑Kj=1βj,v)+1-ωECDF(βj,v)-1(2)

其中ECDF是经过实证的累积分布函数(Cumulative Distribution Function,CDF),FREX是词项在该主题中独有性和出现频率的调和平均。为确保主题词项语义独有性,设置权重ω为07。选择主题内语义收敛程度高且主题间语义区分度高的主题数作为结构化主题模型拟合的最优主题数输入参数。

24基于百度AipNlp开放接口的文本情感倾向性分析

鉴于本文采用的基于双向长短时记忆神经网络的文本情感分析方法需要GPU环境来运行分析代码,经调研,发现百度公司已将基于双向长短时记忆神经网络的文本情感分析方法开源为程序接口(API),即文本情感倾向类库AipNlp,它是百度云自然语言处理开发工具包(SDK)之一。研究人员选取2 000条新闻划分训练集和测试集检验百度情感分析API的性能,发现情感倾向性分析准确率在87%以上,满足研究需求。之后编写Python代码调用接口,完成对每条新闻文本的情感倾向分类(正向、负向或中性)及倾向值输出,作为后续分析用。

3数据分析与讨论

31区块链文章的关键词与共现词演化特征

将2014年1月-2019年12月的区块链文章,以年为单位进行词频分析,输出各年TOP50关键词云如图3所示。

可以看到:2014年1月-2019年12月36氪网区块链产业新闻关键词变动频繁,2014-2015年开始涌现矿机企业(Bitfury等)、数字代币(Fldc等)热词,2016-2019年则较多出现数字代币发行(ICO)与交易、区块链代币(EOS等)、虚拟加密货币(Libra)、金融科技、人工智能等字眼,反映出区块链技术的加速更迭和市场热点的交替轮换。

为发现与“区块链”共现频次较高的词语及其演化趋势,对2014-2019年各年的区块链文章构建共现词库,图5绘制各年区块链共现词网络(含共现词语及共现频次)。

从图5可看到:2014-2015年,“区块链-比特币”这一对词语共现频次最高,反映出大众与互联网媒体将区块链与比特币近似等同认知的特点。此外,“区块链-公司”“区块链-技术”也成为这一期间共现频率较高的词语对,像2013年在北京成立专事矿机的比特大陆科技有限公司,2014年3月,日均比特币交易量达到10万的火币网等都引起媒体的争相报道。2016-2018年,“区块链-技术”和“区块链-公司”词语对取代了“区块链-比特币”,成为36氪产业新闻中共现频次最高的兩对词语,侧面反映公众与媒体对区块链的关注逐步由比特币转向更具体的区块链技术和相关企业。同时,“区块链-平台”“区块链-市场”的共现频次也逐年上升,说明随着区块链技术在部分领域的应用落地,围绕区块链市场运作和商业模式的探讨开始增多。值得注意的是,2018年,36氪产业新闻中“区块链-问题”共现频次是2016年的10倍,

反映区块链快速发展引发的众多问题已引起新闻媒体高度关注。2019年,“区块链-平台”与“区块链-应用”共现频次上升较快,体现产业界对区块链技术的应用落地甚为关注。

32文本情感倾向走势分析

文本情感分析的目的是量化36氪报道区块链新闻的主观情感倾向,将其作为区块链舆情走势的风向指标之一。调用百度文本情感分析API完成的区块链新闻情感倾向分析见表1。

可以看到,36氪网上的区块链产业新闻整体情

感倾向以正面为主(超过70%),图6进一步绘制2014年-2019年12月的文本情感倾向比例(负向文章占比与正向文章占比)走势以及各月新闻走势(左轴表示情感倾向比例,右轴表示新闻数量)。

图6显示:2014年4月-2019年12月,36氪网的区块链新闻正向情感一直高于负向情感比例。2017年10月开始,区块链新闻数量快速上升,反映区块链热度看涨,媒体与大众的关注越来越高,2018年4月后,区块链新闻数量急速回落,体现媒体关注度显著下降,同时产业新闻的负向情感波动下行。

33基于结构化主题模型的区块链热点分析

文本主题建模分析的目的是量化36氪报道区块链新闻的热点,也将其作为区块链舆情走势的风向指标之一。鉴于36氪网长期跟踪报道区块链技术与产业的动向,应用结构化主题模型方法可以自动提取区块链产业新闻的主题强度,将分布概率高的主题识别为区块链技术与产业热点,为此,分两步骤展开:

步骤1:文本最优主题数的确定

应用23节的算法,预设定主题数为4~30范围,计算预处理后构建的文本语料各主题数对应的语义一致性和独有性值,判断最优主题数如图7所示。

图7中显示,主题数值越大的数据点多集中在左上角,在保持主题语义一致性和独有性均较高的条件下(即选择图中右上象限区域数据点),主题数为7对应的文本语料的语义一致性和语义独有性值相对其他主题数表现更佳,选定后续模型拟合的主题数为7。

步骤2:主题模型拟合与结果输出

在步骤1基础上,对主题模型进行拟合,表2展示了区块链文章7个主题的聚类结果,同时也包含每个主题下代表性关键词及代表性文章标题。表中前3列为程序输出结果,第4列主题标签,研究者阅读每个主题下语义最相近的关键词和语义最相近的文章标题人工概括而成。

表2可以看到:2014年1月-2019年12月期间,36kr网区块链新闻可以聚类为7个主题,其中,主题2-“区块链产业应用”(22%),主题4-“数字货币与交易”(18%),主题3-“比特币与ico”(15%)占比较高,主题5:“互联网投融资”(8%)占比最小,说明36氪网区块链新闻一方面关注区块链的产业应用,另一方面热衷报道比特币等数字代币的发行与交易。仔细考察7个主题的语义标签,不难发现,主题1、3、4、7主要围绕区块链与比特币话题展开,主题2、5、6则围绕人工智能与互联网话题讨论。从一个侧面反映出,区块链技术与应用不是孤立的发展,而是与人工智能、互联网等技术与应用密切相关。7个主题的归集可以总结如图8。

为厘清主题1-“区块链产业应用”关注的主要内容,对隶属该主题的876条新闻进一步聚类,发现它们可以归属为以下一些语义较为明确的主题内容:“智能合约与区块链”(占18%),“基于EOS的区块链应用”(占14%),“区块链与社交媒体”(占12%),“区块链与新一代加密货币”(占12%),“区块链与通证经济”(占11%)等。可以看到,聚焦于金融领域的加密数字货币和智能合约是区块链产业应用落地的主要场景,更多的行业应用还有待开发。

34区块链热点主题的情感倾向演化趋势

结构化主题模型算法的一个独特优势是可以量化文档协变量对主题强度的影响,将发布时间(以月为单位)、新闻情感倾向类别作为文档协变量,考察两者对2014-2019年期间7个主题强度的影响,从而揭示区块链热点主题的情感倾向演化特点。

与区块链与比特币相关的4个主题的情感时序变动趋势见图9。

从图9看到,属于主题1-“区块链产业应用”的新闻从2016年3月开始稳步上升,且一直以正向情感为主;主题3-“比特币”的新闻,2014年以来负向情感的文章比例一直多于正向情感的文章占比;主题4-“数字货币与交易”的新闻,从2017年4月开始,负向情感占比迅速超过正向情感且不断攀升;主题7-“区块链技术与应用”的新闻,2017年4月是分水岭,从之前负面新闻主导转为中性和正向新闻更多。综合4个主题的情感倾向演化特点,不难发现,2017年以来,区块链新闻数量开始不断攀升,一方面,36氪对区块链与比特币为代表的数字代币发行及交易的新闻基调明显由褒转贬,隐含对加密数字货币市场炒作的担忧,这可以起到对区块链隐含风险的提前预警作用;另一方面,对区块链应用的关注持续升温,反映产业界对新兴技术落地的渴望。

围绕人工智能、互联网金融发展和互联网投融资展开的3个主题情感演化状况如图10。

图10展示的3个主题情感时序变化有3点发现:其一,属于3个主题的新闻,从2014年1月-2019年12月,文本的正向情感一直高于负向情感,且3个主题新闻占比呈下降趋势,说明早期的新闻内容较为发散,近年来的新闻更为聚焦;其二,针对主题5-“互联网投融资”的新闻,一直以正向情感为主,说明以科技创投媒体著称的36氪对与区块链相关的互联网投融资持正面态度;其三,针对主题2-“互联网金融发展”的新闻,在2019年1月之前,中性情感倾向占比一直高于正向和负向情感比例,说明36氪对区块链与互联网金融发展的话题相对中立。

综合前述对36氪区块链新闻文本的语义和情感分析,可以看到,从2014-2019年,中国的区块链产业热点有两大聚焦:一是区块链技术在不同领域、行业的应用落地;二是比特币及数字代币的发行与交易,2017年以来,媒体报道对加密数字货币交易炒作的负面情绪明显上升。这一现象可以借助IT时尚理论和Gartner集团发布的技术成熟度曲线来解释:

首先,IT时尚(Information Technology Fashion)理论认为,一些新兴信息技术创新在被大众广泛接受以及制度化前常常存在短期炒作的现象,它们被媒体和投资者作为一种时尚而大肆宣传,并被视为新颖且高效的前沿技术,由此引发采纳者和最终用户的超高期望。一旦技术的实际应用进程与公众的希冀相距甚远,就会造成大众热情的快速消退。作为一种新兴技术,区块链与数字加密货币的结合已展现其高风险、高预期回报的特点,媒体与投资者对以比特币为典型的数字代币炒作只是看到其高回報的一面,忽视了ICO乱象隐藏的潜在风险一面,同时也不利于区块链技术的渐进式发展与成熟应用。

其次,新兴技术的发展也呈现阶段式推进的特征,美国著名的信息技术研究与咨询企业Gartner公司认为,技术成熟度曲线兼具反映某项前沿技术从诞生到成熟的动态演化过程和技术发展阶段评测的作用,它将技术发展周期分为技术触发、期望膨胀、泡沫谷底、稳步复苏和产出高峰5阶段。在技术发展早期,广大民众对技术创新的期望值通常大大超出技术的实际回报值,因此,这期间的技术发展具有一定的泡沫成分。Gartner的新技术成熟度曲线显示,区块链技术在2016-2018年期间恰恰处于期望膨胀阶段,这与本文之前的分析相呼应。2017年以来,近20%的媒体报道集中于比特币的交易与其他数字代币的发行,各类风险投资机构跟风炒作盛行。当基于区块链技术构建的比特币和其他数字代币的实际回报低于期望回报或蕴含风险超出民众可承受度时,就会引发大众对区块链技术兴趣和关注度的快速下降。Gartner对区块链技术成熟度的分析也表明,2018-2019年,区块链技术发展步入期望泡沫破灭的谷底期,有鉴于此,加大区块链的行业应用创新力度,从严监管打着区块链旗号,从事代币众筹的非法融资活动,应该成为推动区块链产业包容式发展的重要手段。

4结论与启示

近两年来,不少新兴产业在广大用户的心目中经历了“从热情高涨到理性预期”的变化,为揭示新兴产业领域的轮换热点与发展趋势,构建了融合文本语义与情感分析技术的新兴产业新闻监测模型,通过对知名科技财经媒体—36氪网站2014-2019年3 983条区块链新闻文本内容,应用结构化主题模型与深度学习情感分析技术发现:①2014-2017年上半年,区块链的互联网媒体报道较为平稳,但2017年10月以后,相关报道与关注热度迅速升温;②文本主题聚类结果显示,36氪报道的区块链产业热点聚焦在区块链的产业应用和以比特币为代表的数字代币发行与交易等方面;③文本的情感倾向分析显示,2017年4月之后,36氪对区块链与各类数字代币发行与交易的新闻基调显著由褒转贬,侧面反映出对币圈挣快钱等区块链泡沫的隐忧,可以对区块链隐含风险起到提前预警作用。

既有热点话题挖掘的文献多应用LDA主题模型,基于互联网新闻开展新兴产业热点演化监测的研究尚不多见。本文提出以互联网产业新闻为对象,应用纳入协变量的结构化主题模型和基于深度学习的情感分析技术,可以通过监测媒体报道的产业新闻热点强度变化,文本情感倾向对新闻热点强度的时序影响,发现并跟踪新兴产业热点及趋势,为各级政府监管部门、新兴技术提供商或从业者了解产业动态,把握新兴技术机会增添新手段。未来研究,可以将本文提出的方法应用于5G、人工智能等新兴产业的热点监测,比较不同领域应用成效。

参考文献

[1]刘小平,冷伏海,李泽霞.国际科技前沿分析的方法和途径[J].图书情报工作,2012,56(12):60-65.

[2]王鹏,王丽丽,王基伟.加快建立规模以上工业战略性新兴产业统计监测指标体系[J].中国战略新兴产业,2017,(29):54-57.

[3]Kim M,Park Y,Yoon J,et al.Generating Patent Development Maps for Technology Monitoring Using Semantic Patent Topic Analysis[J].Computers and Industrial Engineering,2016,98(98):289-299.

[4]Yoon J,Seo W,Coh B,et al.Identifying Product Opportunities Using Collaborative Filtering-Based Patent Analysis[J].Computers and Industrial Engineering,2017,107:376-387.

[5]刘苗,李蔚,朱述政,等.基于互联网文本情感分析的消费情感指数构建[J].统计与信息论坛,2018,33(8):31-38.

[6]赵丹,王晰巍,韩洁平,等.区块链环境下的网络舆情信息传播特征及规律研究[J].情报杂志,2018,37(9):127-133,105.

[7]卢超,侯海燕,Ding Ying,等.国外新兴研究话题发现研究综述[J].情报学报,2019,38(1):97-110.

[8]岳丽欣,刘自强,胡正银.面向趋势预测的热点主题演化分析方法研究[J].数据分析与知识发现,2020,4(6):22-34.

[9]Blei D M,Ng A Y,Jordan M I,et al.Latent Dirichlet Allocation[J].The Journal of Machine Learning Research,2003,(3):993-1022.

[10]冉从敬,宋凯,何梦婷,等.校企合作背景下高校前沿科研团队探测模型构建——以区块链技术领域为例[J].现代情报,2020,40(6):46-54.

[11]宗乾进,黄子风,沈洪洲.基于性别视角的社交媒体用户造谣传谣和举报谣言行为研究[J].现代情报,2017,37(7):25-29,34.

[12]Wang X,Gerber M S,Brown D E,et al.Automatic Crime Prediction Using Events Extracted From Twitter Posts[J].In International Conference on Social Computing,Behavioral-Cultural Modeling,and Prediction,2012:231-238.

[13]Guo Y,Barnes S J,Jia Q,et al.Mining Meaning From Online Ratings and Reviews:Tourist Satisfaction Analysis Using Latent Dirichlet Allocation Tourism Management[J].Tourism Management,2017,59:467-483.

[14]白敬毅,顏端武,陈琼.基于主题模型和曲线拟合的新兴主题趋势预测研究[J].情报理论与实践,2020,43(7):130-136,193.

[15]吴菲菲,张亚茹,黄鲁成,等.基于AToT模型的技术主题多维动态演化分析——以石墨烯技术为例[J].图书情报工作,2017,61(5):95-102.

[16]孙晓玲,丁堃.管理科学研究主题及其演化趋势——基于NSFC基础研究知识库的分析[J].科学学与科学技术管理,2017,38(6):3-11.

[17]王杰,唐菁荟,王昊,等.融合主题模型和卷积神经网络的APP推荐研究[J].情报理论与实践,2019,42(4):158-165.

[18]Mimno D,Mccallum A.Topic Models Conditioned on Arbitrary Features with Dirichlet-multinomial Regression[C]//Conference on Uncertainty in Artificial Intelligence.Amherst:University of Massachusetts,2008:411-418.

[19]Eisenstein J,Ahmed A,Xing E P.Sparse Additive Generative Models of Text[C]//International Conference on Machine Learning.Washington:Digital Bibliography Library Pro,2011:1041-1048.

[20]Roberts M E,Stewart B M,Tingley D,et al.Structural Topic Models for Open-Ended Survey Responses[J].American Journal of Political Science,2014,58(4):1064-1082.

[21]Roberts M E,Stewart B M,Airoldi E M,et al.A Model of Text for Experimentation in the Social Sciences[J].Journal of the American Statistical Association,2016,111(515):988-1003.

[22]吴俊,欧阳书凡,李晓华.基于STM和格兰杰因果分析的网络新闻媒体倾向研究[J].系统工程学报,2020,35(4):446-458.

[23]吴俊,石宏磊.“互联网+”研究的热点主题、脉络与展望——基于主题建模的内容分析[J].电子政务,2016,(12):19-29.

[24]Kuhn K.Using Structural Topic Modeling to Identify Latent Topics and Trends in Aviation Incident Reports[J].Transportation Research Part C:Emerging Technologies,2018,87:105-122.

[25]王科,夏睿.情感词典自动构建方法综述[J].自动化学报,2016,42(4):495-511.

[26]李光敏,许新山,熊旭辉.Web文本情感分析研究综述[J].现代情报,2014,34(5):173-176.

[27]何跃,朱灿,朱婷婷,等.微博热点话题情感趋势研究[J].情报理论与实践,2018,41(7):155-160.

[28]周延风,张婷,陈少娜.网红社交媒体传播及消费者情感倾向分析——以网红品牌“喜茶”为例[J].商业经济与管理,2018,(4):70-80.

[29]陈红琳,魏瑞斌,张玮,等.基于共词分析的国内文本情感分析研究[J].现代情报,2019,39(6):91-101.

[30]Thomas H.Probabilistic Latent Semantic Indexing[J].ACM,2017,51(2):50-57.

[31]Edoardo M A,Jonathan M B.Improving and Evaluating Topic Models and Other Models of Text[J].Journal of the American Statistical Association,2016,111(516):1381-1403.

[32]Mimno D,Blei D M.Bayesian Checking for Topic Models[C]//Empirical Methods in Natural Language Processing,2011:227-237.

(责任编辑:孙国雷)

猜你喜欢

区块链深度学习
有体验的学习才是有意义的学习
MOOC与翻转课堂融合的深度学习场域建构
大数据技术在反恐怖主义中的应用展望
区块链技术的应用价值分析
“区块链”的苟且、诗和远方
用“区块链”助推中企走出去