企业竞争情报主题挖掘与主题演化研究
2021-08-06杨秀璋武帅夏换于小民范郁锋
杨秀璋 武帅 夏换 于小民 范郁锋
摘 要: 研究了我国企业竞争情报的热点主题和主题演化态势,利用主题挖掘与主题演化方法系统梳理了我国企业竞争情报领域的研究成果。通过Python自动提取及预处理文献数据,再利用共词分析、LDA模型和知识图谱挖掘该领域的核心科研群体和热点主题,最后结合主题演化方法梳理企业竞争情报的发展脉络。该研究可为企业竞争情报领域今后的相关探索提供借鉴,具有一定的应用价值。
关键词: 主题挖掘; 主题演化; 企业竞争情报; 知识图谱; 文本挖掘
中图分类号:TP399 文献标识码:A 文章编号:1006-8228(2021)07-21-07
Research on topic mining and topic evolution of enterprise competitive intelligence
Yang Xiuzhang1, Wu Shuai1, Xia Huan2, Yu Xiaomin2, Fan Yufeng3
(1. School of Information of Guizhou University of Finance and Economics, Guiyang, Guizhou 550025, China; 2. Guizhou Key Laboratory of Economics System Simulation of Guizhou University of Finance and Economics; 3. Planning And Finance Office of Guizhou University of Finance and Economics)
Abstract: This paper researches on the situation of the hot topic and topic evolution of Chinese enterprise competitive intelligence, and systematically combs the research achievements in the field of Chinese enterprise competitive intelligence by using the methods of topic mining and topic evolution. The literature data are automatically extracted and preprocessed with Python, and then the core research groups and hot topics in this field are mined by using CO word analysis, LDA model and knowledge graph, finally the development context of enterprise competitive intelligence is combing with the topic evolution method. This research can provide reference for the future exploration in the field of enterprise competitive intelligence, and has certain application value.
Key words: topic mining; topic evolution; enterprise competitive intelligence; knowledge graph; text mining
0 引言
随着经济迅速发展,各企业之间的竞争变得越来越激烈,基于大数据和人工智能的企业情报分析技术变得尤为重要[1]。企业竞争情报正是在此环境下发展壮大,它不仅是企业对信息资源进行深度开发和利用的结晶,也是企業制定高质量战略决策以及寻求科学发展所必须的情报知识[2]。当今社会,针对企业竞争情报的研究越来越多,主要集中于图书情报、工商管理、计算机科学、金融学等领域。
学者们针对模型研究[3-4]、体系构建[5-6]以及对策研究[7]等不同视角进行探究,形成大量的学术成果。然而,现有研究仍然缺乏对企业竞争情报领域的学术成果进行系统地分析和梳理,没有较好地利用主题挖掘和主题演化方法研究企业间的关联关系,在热点主题挖掘、科研群体发现和主题趋势演化方面存在一定不足。鉴于此,本文提出了基于主题挖掘与主题演化的企业竞争情报分析方法,系统梳理我国企业竞争情报领域近三十年的研究成果,从海量学术成果中分析出我国企业竞争情报的核心科研群体和主流热点主题,进而可以了解其主题脉络及发展动态。
1 相关工作和研究框架
1.1 相关工作
我国关于企业竞争情报的研究起步相对较晚,但发展迅速,各学者在不断丰富着该领域的研究方向,并取得一系列成果。
在基于机器学习的主题挖掘方面,李海林等[8]提出了基于时间序列聚类的主题发现方法,通过共词分析和近邻传播聚类算法挖掘文献主题;关鹏等[9]利用LDA主题模型和生命周期理论分析锂离子电池领域的主题,解决了主题过滤、主题语义相似度计算和主题语义演化模式判别等技术问题;杨秀璋[10]结合LDA主题模型和文本聚类算法对中国知网的水族文献进行主题挖掘;谢世敏和丁敬达[11]通过LDA主题模型和引文网络挖掘科学信息交流主题,得出面向社会化众包和大规模协同的科学信息交流将成为该领域的研究热点。
在基于知识图谱的主题挖掘方面,詹婧和张仁琼[12]结合共词分析、知识图谱及战略坐标分析的文献计量学方法,挖掘高校图书馆知识服务的核心主题和潜在研究方向;吕红[13]运用信息计量和可视化技术分析大数据领域,挖掘出企业竞争情报研究、大数据时代社会治理与公共服务创新等六大研究主题;黄先蓉和张窈[14]在共词分析的基础之上对“意识形态”相关文献进行分析,区分出六大核心主题社区。
在主题演化方面,伊惠芳等[15]通过主题状态、演化强度变化以及主题内容三维度进行对石墨烯技术全面分析;王凯利和李进华[16]结合共词分析及聚类算法详细分析了我国近十年的信息行为研究主题演化,最终推算出近五年的新研究热点;何伟林等[17]提出了CSToT主题模型,分析国内情报学领域2012-2016年度研究主题结构以及演化过程;陈淋等[18]运用共词分析、聚类分析以及战略坐标图等方法分析图书情报学的研究主题演化生命周期符合常规学科的发展规律,并得出相应的研究热点及前沿。
1.2 总体框架
本文旨在分析我国企业竞争情报的热点主题和主题演化态势。主要利用的方法包括LDA模型、共词分析、知识图谱和主题演化方法。其算法总体框架如图1所示。
⑴ 利用Python语言和Selenium技术,抓取中国知网“企业竞争情报”关键词相关的主题文献。
⑵ 通过Python语言编写自动化脚本,对所采集的语料进行预处理操作,涉及中文分词、停用词过滤、特征提取等,再将预处理后的语料存储至数据库中。
⑶ 结合共词分析、LDA模型和知识图谱,挖掘我国企业竞争情报文献的核心科研群体和主题。
⑷ 基于词频和活跃度计算各阶段主题演化趋势,然后利用主题演化方法构建企业竞争情报主题的演化趋势及发展历程。
⑸ 最后利用可视化技术呈现我国企业竞争情报主题挖掘和主题演化的结果,并进行结论总结。
1.3 数据采集及预处理
通过Python和Selenium技术采集中国知网数据库关于“企业竞争情报”的期刊文献,其时间跨度为1987年至2019年11月,共計4311篇文章。文献内容主要包括文章标题、出版期刊、文献类型、出版年份、下载次数、引用次数、作者、摘要和关键词等,详细信息如表1所示。
近20年中国企业竞争情报文献的数量呈先增长后降低的总体趋势。其中,发文量的峰值位于2010年(347篇),篇均被引用量最高的是2006年,平均每篇文献被引用9.42次;篇均下载量最高的是2007年,平均每篇文献被下载352.70次。
文献语料采集完成后,接着进行预处理操作。首先通过Python编写脚本将缺失值补充,重复值删除;然后利用Jieba工具进行中文分词,导入关键词和停用词典进行数据清洗;最后进行特征提取、TF-IDF计算和共词分析。通过预处理获取质量更高的语料,从而提升实验结果的准确率。
2 企业竞争情报主题挖掘分析
2.1 核心科研群体发现
企业竞争情报领域的核心科研群体发现的基本步骤如下。
⑴ 计算所采集的4311篇企业竞争情报期刊文献的所有作者名单,共计4276名作者。
⑵ 构建学术成果作者间的共现矩阵,如公式(1)所示,当两名作者合作完成一篇学术论文时,说明他们之间存在一定的关联,共现数加1,否则共现数为0。共现次数越多,则合作关系越紧密。
[y=+1 a,b作者有共同发表论文0 a,b作者无共同发表论文] ⑴
⑶ 采用Gephi绘制作者合作知识图谱。该知识图谱初始构建了2840个节点和3317条关系,将各科研团队聚焦在一起。其中,圆圈代表发文作者,圆圈越大发文量越多,反之越少;连线代表作者间的合作关系,连线越粗合作次数越多,反之越少。
⑷ 计算每个节点的度和每条边的权重,通过聚类算法最终发现多个核心科研团队,形成了对应的关系知识图谱。
图2仅列出六个核心科研团队。其中,图2(a)是来自云南省科技情报研究所和昆明理工大学的彭靖里、杨斯迈团队,主要研究方向为企业技术创新和竞争情报分析等;图2(b)是来自中国科学技术信息研究所的陈峰、赵筱媛团队,主要研究方向为企业管理和产业竞争情报分析;图2(c)是来自南开大学的王知津、严贝妮团队,主要研究方向为竞争情报、反竞争情报和企业战略情报;图2(d)是来自上海商学院和江苏大学的吴晓伟、宋新平团队,主要研究方向为人际竞争情报、企业管理和企业竞争情报;图2(e)是来自武汉大学和武汉纺织大学的张玉峰、吴金红团队,主要研究方向为竞争情报分析、情报数据挖掘和企业管理;图2(f)是来自南京大学和辽宁师范大学的宋继伟、王晓慧团队,主要研究方向为竞争情报分析、反竞争情报、企业危机管理和可视化分析。
2.2 基于LDA模型的主题挖掘
LDA(Latent Dirichlet Allocation)是一种无监督学习的主题概率生成模型,也被称作三层贝叶斯概率模型,其是在pLSA模型基础上增加贝叶斯架构模块所形成的。
本文通过LDA模型主题挖掘实验,发现其主题数设置为2效果最佳。最终形成如表2所示的主题分布情况,分别对应“竞争情报”和“企业”两个核心主题。
2.3 基于知识图谱的主题挖掘
通过构建主题关键词的共现矩阵,结合知识图谱可以进行企业竞争情报文献的主题挖掘研究。通过分析发现:
⑴ 所有文献共涉及关键词4883个,关键词总频数为17927次,平均每个关键词出现3.67次。常见的高频词包括“竞争情报、企业、企业管理、竞争情报系统、知识管理、中小企业”等,它们一定程度上反映了该领域的热点主题。
⑵ 利用共词分析方法计算各主题间的关联性。当两个关键词同时出现在一篇文献中,则认为共现并构建关联边,其边所对应的权重加1;反之,两个关键词不存在共现关系,其权重为0。
⑶ 采用Ochiia系数法计算共现矩阵的相似度,其公式如式⑵所示,Oij为所求的共现系数,Cij是关键词i和关键词j共现总次数,Ci是关键词i出现的总次数,Cj是关键词j出现的总次数。
[Oij]=[CijCi×Cj] ⑵
本文根据企业竞争情报文献关键词共现分析,得出高频关键词共现矩阵及其系数。根据关键词共现频次排名,“竞争情报”和“竞争对手”共现频次最高,其值为113次,Ochiia系数为0.1712;“竞争情报”和“知识管理”共现103次,Ochiia系数为0.1674;“竞争情报”和“中小企业”共现91次,Ochiia系数为0.1522。
⑷ 针对已构建的关键词共现矩阵,利用Gephi绘制企业竞争情报文献的主题共现知识图谱。最终绘制主题知识图谱(图3)。该社会网络图共包括341个核心节点,646条共现关系。由此可知,该领域形成了以“竞争情报”和“企业”为中心,其他主题词逐渐向边缘分布和扩散的态势。其中以“竞争情报”为中心的共现网络,与“情报收集、情报战略、知识管理、战略管理”等关键词共现明显,以“企业”为中心的共现网络,与“企业管理、竞争情报分析、商业情报、中小企业”等关键词共现明显。
3 企业竞争情报主题演化分析
3.1 各时期主题演化度量
根据企业竞争情报文献历年的分布情况,将相关文献划分为四个阶段,从而保证不同阶段文献数据的均衡性,更准确地开展主题演化研究。这四个阶段分别是:①初步探索时期(2000年以前),该阶段“企业竞争情报”刚被提出,文献产量相对较少,共有237篇文献。②缓慢成长时期(2000年至2007年),该阶段企业竞争情报领域逐渐被认可,文献产出数量稳步增长,共产出1437篇文献。③快速发展时期(2008年至2013年),随着全球金融危机出现,企业竞争情报成为了热门话题,该阶段的文獻达到了高峰1748篇文献。④竞争放缓时期(2014年至今),随着全球进入合作共赢时代,企业竞争情报研究进入放缓时期,共产出889篇文献。
基于词频和活跃度计算出各阶段主题演化的度量值,得出表3所示的结果。初步探索时期(2000年以前)用T1表示,其核心主题词为“竞争情报”“企业”“企业管理”“情报研究”“竞争对手”“情报工作”和“市场经济”;缓慢成长时期(2000年至2007年)用T2表示,其核心主题词为“竞争情报”“企业”“企业管理”“企业管理”“竞争情报系统”“竞争对手”“知识管理”和“反竞争情报”;快速发展时期(2008年至2013年)用T3表示,其核心主题词为“竞争情报”“企业”“竞争情报系统”“企业管理”“高校图书馆”“反竞争情报”和“知识管理”;竞争放缓时期(2014年至今)用T4表示,其核心主题词为“竞争情报、企业、大数据、产业竞争情报、竞争情报系统、高校图书馆”和“企业管理”。
3.2 主题演化分析与归纳
通过计算四个阶段各个主题的活跃度及出现频次,从而确定每个时期的热点主题,构建各阶段主题演化的趋势及发展态势,最终得出如图4所示的文献主题演化趋势。
由图4可知,共包括四个时期,每个时期包含七个核心主题,用方框表示,各主题之间的连线表示主题演化的趋势,方框和连线的宽度越大表示其热门程序越高,反之越低。主题演化结论最终归纳为:“竞争情报”和“企业”为四个阶段最热门的两个主题,引领着整个企业竞争情报领域的发展。在T1阶段(2000年以前)出现了“情报研究”“情报工作”“市场经济”新生主题,随后第二阶段消亡并融入“竞争情报”主题中;在T2阶段(2000年至2007年)出现了“知识管理”“反竞争情报”“竞争情报系统”新生主题,该领域衍生出一部分从事知识管理、竞争与反竞争的研究;在T3阶段(2008年至2013年)出现了“高校图书馆”新生主题,展现了高校情报研究逐渐得到重视;在T4阶段(2014年至今)出现了“大数据”“产业竞争情报”新生主题,企业竞争情报研究逐渐融入大数据、人工智能、产业竞争、合作共赢等新兴技术和概念。
4 结束语
针对我国企业竞争情报领域的4311篇期刊文献,提出了基于主题挖掘与主题演化的企业竞争情报分析方法,系统梳理我国企业竞争情报领域近三十年的研究成果,有效弥补传统方法不能有效地挖掘出情报文献的研究热点及核心科研群体,难以全面地把握企业竞争情报主题演化趋势的不足。
实验结果表明,本文提出方法能有效识别出企业竞争情报领域的热点主题,发现核心科研群体,挖掘主题演化脉络及趋势。本文形成了六个核心科研团队,挖掘出整个企业竞争情报领域是以“竞争情报”和“企业”为中心,呈交叠式、综合式关联的知识图谱,从侧面也反映了企业竞争情报主题具有多学科、综合性的研究特点。同时,通过主题演化分析显示,国内企业竞争情报文献主题可划分为四个阶段,梳理了企业竞争情报领域各主题及其之间的发展脉络和演化态势。总之,本文提出的方法具有一定的应用前景和使用价值。
参考文献(References):
[1] 石进,李益婷,刘千里.企业竞争情报态势感知系统研究[J].情报杂志,2019.38(4):43-51
[2] 高国伟,栾泽权.企业竞争情报研究模型——以企业尽职调查为例[J].情报科学,2019.37(8):68-74
[3] 杨波,孙白朋.基于风险生命周期的企业反竞争情报机制模型构建[J].现代情报,2019.39(11):30-37
[4] 龚花萍,高洪新.基于领域本体模型的情景分析法在中小企业竞争情报中的应用研究[J].情报科学,2017.35(10):99-102
[5] 周海煒,刘闯闯,李蓝汐,郑力源.网络信息安全背景下的企业反竞争情报体系构建[J].科技管理研究,2019.39(12):190-195
[6] 刘爱东,谭凯波.智慧城市竞争情报体系构建研究——以应对生态反倾销为例[J].科技进步与对策,2018.35(24):123-126
[7] 储节旺,陈善姗.开放创新环境下企业专利竞争情报分析的条件、困境及对策研究[J].情报理论与实践,2019.42(6):10-16
[8] 李海林,邬先利.基于时间序列聚类的主题发现与演化分析研究[J].情报学报,2019.38(10):1041-1050
[9] 关鹏,王曰芬,傅柱.基于LDA的主题语义演化分析方法研究——以锂离子电池领域为例[J].数据分析与知识发现,2019.3(7):61-72
[10] 杨秀璋.基于LDA模型和文本聚类的水族文献主题挖掘研究[J].现代计算机,2019.5:13-17
[11] 谢世敏,丁敬达.科学信息交流领域的研究主题和发展演化探析[J].图书馆学研究,2019.9:2-9,53
[12] 詹婧,张仁琼.高校图书馆知识服务研究现状及主题演化分析[J].图书馆工作与研究,2019.5:54-60
[13] 吕红.国内人文社会科学视野下大数据研究力量布局与研究前沿识别[J].现代情报,2017.37(3):132-140
[14] 黄先蓉,张窈.我国新闻出版领域有关意识形态研究的主题结构及演化趋势[J].出版科学,2019.27(6):1-7
[15] 伊惠芳,吴红,李昌,冀方燕.基于主题生命周期与技术熵的石墨烯技术主题演化研究[J].情报杂志,2019.38(2):64-70
[16] 王凯利,李进华.近十年我国信息行为研究主题演化分析[J].情报科学,2018.36(6):105-112
[17] 何伟林,奉国和,谢红玲.基于CSToT模型的科技文献主题发现与演化研究[J].数据分析与知识发现,2018.2(11):64-72
[18] 陈淋,屈文建.基于共词分析的我国图书情报学研究主题演化分析[J].新世纪图书馆,2017.12:13-18