APP下载

基于硕博士论文关键词构建知识图谱分析企业热点

2021-09-27任卓明

关键词:图谱阿里巴巴华为

郑 月,潘 潇,任卓明

(杭州师范大学阿里巴巴商学院,浙江 杭州 311121)

0 引言

知识图谱已成为各领域广泛使用的一种对知识结构与发展进行关系展示的方法图形[1].目前知识图谱的应用有多学科领域融合并持续向社会人文领域渗透的趋势[2-3],它能通过不同层次不同粒度的学科知识探测学科知识结构、识别领域学科热点主题并追踪学科发展动态[4].近几年国内外对管理学前沿的探索大多以重要管理学期刊为分析对象.李妍等以415篇隐性知识管理文献为研究对象,结合Ucinet6和NetDraw绘制知识图谱网络[5].王晓红等通过与隐性知识研究相关的865篇文献分析了隐性知识研究的文献特征和研究热点[6].梁伟波等以美国国家科学基金资助的项目为研究对象绘制物流项目研究计划知识图谱和主题词聚类图谱,揭示国外物流研究重点领域和热点主题[7].另外也有学者利用知识图谱分析企业管理的研究热点.邹非等通过中小企业社会责任文献数据描绘中小企业社会责任研究的特点与趋势[8].解小刚等分析了“核心竞争力”为主题或关键词的文献,展现了核心竞争力的知识图谱脉络[9].严若森等以制度距离为主题的文献数据系统阐述了制度距离的理论溯源、核心议题及研究内容,总结了新常态下中国企业的国际化问题[10].潘新睿等通过我国证券法相关研究的科学论文对我国证券法研究领域以及热点问题进行深入的考察和比较[11].对创业与创新研究的知识图谱分析也是一个研究热点.李思志等以管理科学与工程领域文章为基础剖析了该领域研究的科研产出分布情况,探索了该领域的创新轨迹[12].郝志鹏等对创业学习文献进行可视化比较分析,发现国内外创业学习研究的热点主题和研究热点的演进路径交融推进[13].张秀萍等以社会网络在创新领域应用的文献为研究样本分析了该领域主要国家研究机构合作情况、核心研究学者及其经典文献、研究热点演进过程、研究前沿及发展趋势[14].丁振阔等采用知识图谱方法梳理了文献涉及的理论基础、研究情景、研究方法以及包括的研究主题[15].施萧萧等以1998—2015年收录的490篇颠覆性创新研究文献为分析对象,分析了颠覆性创新领域的研究热点、研究主题及其演化趋势[16].

除了识别领域学科热点主题、追踪学科发展动态外,知识图谱方法也能可视化地展示知识结构及其演化进程,这已在未来导向技术分析领域有所应用[17].未来导向技术分析对技术未来发展的预测和评估起着重要作用.例如了解国内外大数据领域的研究情况、研究热点上的异同、预测研究动态[18-20].张敏等选取2004—2013年SCI/SSCI数据库中收录的1148篇大数据相关主题的文献为样本展开分析[21].王莉等分析了近年来“互联网+传统行业”的研究热点与前沿领域,为国内“互联网+”的研究与实践提供一定的借鉴[22].李英等以Web of Science数据库中绿色车辆路径问题领域的360篇文献为研究对象,对蕴含在绿色车辆路径问题领域主题文献中的知识结构进行深入挖掘和分析[23].

通过对知识图谱的研究进展分析,可知很少人将其的关注点集中于企业发展.众所周知,华为、阿里巴巴和腾讯3家企业作为我国重点企业,每年有大量硕博士以3家企业为研究对象.本文从中国知网的优秀硕博士论文数据库采集了2004—2018年分别以关键词“华为”、“阿里巴巴”和“腾讯”为主题词的硕博士论文信息.为了探究论文中研究的企业热点以及演化,首先统计历年论文关键词,并研究论文中关键词演化情况,然后通过构建关键词知识图谱网络来可视化展现关键词之间的内部结构特征和演化.最后通过网络特征参数分析了知识图谱网络的演化趋势.

1 优秀硕博士学位论文中以华为、阿里巴巴和腾讯为主题的研究统计分析

1.1 数据介绍

本文通过中国知网的中国优秀硕博士论文数据库分别以关键词“华为”、“阿里巴巴”和“腾讯”为主题词采集了2004—2018年优秀硕博士论文的完整信息.数据中包含题名、作者、学位授予单位、学位年度、关键词、摘要、中图分类号字段,如图1(a)所示.

(a)为优秀硕博士论文的数据信息;(b)为2004-2018年历年分别以关键词“华为”、“阿里巴巴”、“腾讯”为主题词的论文数,其饼图为论文的总的百分比

图1(b)为2004—2018年间分别以3个关键词为主题词的论文数.可以看到在这个样本中,与华为相关的学位论文数占42.12%,接近以“阿里巴巴”为主题的论文数量的2倍,与阿里巴巴相关的论文数只占22.36%,而以“腾讯”为主题的论文数占35.52%.从历年的统计来看,以“华为”为主题的学位论文数在2004—2010年期间增长迅速,之后较为平缓.而以“腾讯”为主题的学位论文数从2004年起一直保持着快速的增长势头并在2013年起超过“华为”,直到2015年到达最大值后开始回落;而以“阿里巴巴”为主题的学位论文数在2010年前每年都低于25篇,直到2012年开始迅速增长,到2015年接近华为,但热度还是低于腾讯.

根据中图分类号学科的分布统计来看,3家企业的研究学科各有侧重点,对“华为”的研究主要以3类学科为主:工商管理(35%)、信息通信(16%)和工业经济(13%).以“阿里巴巴”为对象的研究最主要以商业经济(32%)、工商管理(22%)和金融(15%)为中心.而以“腾讯”为研究对象的最主要3类学科是新闻传播(28%)、通信经济(17%)和工商管理(14%).比较有趣的是以3家企业为研究对象的前3个学科都涉及了工商管理,但同时很明确的是分别以3家企业为研究对象的学位论文都是以3家企业的特色展开的,如“华为”涉及信息通信,“阿里巴巴”是商业经济,“腾讯”则是新闻传播.

(a)为华为,(b)为阿里巴巴,(c)为腾讯

1.2 关键词时间演化统计分析

为了观察研究热点随时间变化的情况,将2004—2018年的数据分成2004—2008、2009—2013和2014—2018 3个时间段,然后分别统计了3个时间段内以3家企业为主题词统计的论文中的关键词个数.图3(a)(b)(c)为关键词个数排名前10的关键词频次分布情况.首先看以华为为主题词统计的论文中关键词的演化.在这15年里,“华为”与“技术创新”这两个关键词一直是硕博士论文的研究热点,这表明硕博士热衷于研究华为技术创新的方式.3个时间片段也可以看出,2004—2008年对华为的研究主要以“战略”、“知识产权”、“软交换”等为主,而到了2009—2013年则以“软交换”、“城域”、“3G”等技术为主,但到了2014年以后的研究则主要是“标准必要专利”、“智能手机”、“营销策略”、“反垄断”等.另外排名前10的关键词个数累计频率在3个时间段都在15%—20%之间.可以看出对于华为的研究是以技术特色为导向展开.

从以阿里巴巴为对象的分析来看,图3(d)(e)(f)中2004—2008年和2009—2013年两个时间段主要围绕“电商”这个关键词展开,然后到2014—2018年时间段出现新热点“互联网金融”,但“电商”这个关键词数依然排名第三.另外从频数分布来看,“电商”这个关键词数远高于其他关键词,即使到2014—2018年这个时间段,“阿里巴巴”、“互联网金融”、“电商”这3个关键词也是远多于其他关键词的.也就是说近15年硕博士对阿里巴巴的研究大多围绕“电商”这个关键点,直到2014年后开始将关注点转换到“互联网金融”.另外从这3个时间段来看,也是合乎了阿里巴巴的发展路径.

从以腾讯为对象的分析来看,图3(g)(h)(i)中2004—2008年统计的前10个关键词主要集中在“盈利模式”、“网络经济”、“电子商务”、“互联网”和“门户网站”等,说明此时硕博士对腾讯进行多方面的分析,而到了第二阶段就出现了有关腾讯特色的关键词,如“微博”、“反垄断”、“即时通讯”、“互联网”等,特别是到了最近5年其特点才更集中,如“微信”、“互联网企业”、“互联网”等腾讯自身的核心产品.

从对3家企业的关键词分析来看,每个时间点,硕博士基本围绕企业的发展特色展开研究,或从企业的技术突破来分析,或从企业的发展来定位,或从企业的发展面临的新问题新成就来展开探讨.

(a),(b),(c)为华为;(d),(e),(f)为阿里巴巴;(g),(h),(i)为腾讯

2 关键词知识图谱分析

2.1 关键词知识图谱构建与分析

图4 关键词知识图谱示例Fig.4 Example of keyword knowledge graph

根据国家标准GB 7713—87规定:“关键词是为了文献标引工作从报告、论文中选取出来以表示全文主题内容信息目的单词或术语”[24].硕博士论文中的关键词都是对研究内容进行高度概括的词语,因此这些词语相互之间具有紧密的关系.图4给出了关键词知识图谱示例,其中a论文的关键词为“中小企业”“电子商务”“阿里小贷”“融资渠道”和“风险控制”.b论文的关键词是“中小企业”“电子商务”“商业模式”和“服务创新”.这些关键词可表达全文内容主题,因此它们互为两两相关.于是将每个关键词视为一个节点,每篇论文中的关键词就构成一个小全连通网络,如图4.从图4两个网络中可以观察到有一对关键词是相同的,都有电子商务和中小企业,这样a论文与b论文就可以融合为一个网络.依此类推,将每篇论文的关键词都构建成一个全连通网络,通过相同的连边就融合成一个更大的网络,相同关键词对越多,连边的权重值越高.

为了更加细致地研究关键词对的关联强度,只抽取在每个时间切片中关键词数大于3的关键词,避免低频词对知识图谱可读性的影响.在不同时间切片中,利用Ochiia系数计算关键词对的关联强度.Ochiia系数是用来衡量两个关键词α,β之间的联系密切程度,计算公式如下:

(1)

其中Nα和Nβ为关键词α,β的词频数,Nα∩β为关键词α,β共同出现的词频数,通过计算2个关键词的Ochiia系数,构建关键词知识图谱,最后导入Gephi软件[25],可视化每个时间切片内的内部结构,其中以关键词出现频次为节点的大小,连边的粗细表示研究内容之间关联强度.

2.2 关键词的知识图谱演化分析

图5 关键词知识图谱中网络可视化Fig.5 Network visualization in keyword knowledge graph

为进一步清晰揭示关键词之间的内部结构特征和演化,分别以3个时间片段的论文中涉及的关键词构建知识图谱,并用Gephi软件进行可视化.图5给出了以3家企业为主题的硕博士论文中关键词知识图谱网络.在2004—2008年这个时间片段中,华为的关键词知识图谱最复杂,其大节点较多且相对均衡,而另两个知识图谱则相对简单.以阿里为研究对象的论文以电商为重点构成的网络为研究方向,而以腾讯为对象的论文则以“互联网”“电子商务”“盈利模式”构成的网络为主要研究方向.从2009—2013年的时间片段来看,以华为和腾讯为研究对象的关键词知识图谱网络相对阿里的更复杂,其中以阿里为研究对象的关键词围绕在“电商”“中小企业”“B2B”和“商业模式”,而此时针对腾讯的研究为众所熟知的热门行业如互联网、即时通讯 、腾讯、微博等.于是到了2014—2018年这个时间段,虽然研究对象都是这3家企业,关键词“华为”在华为知识图谱网络中出现的次数远大于其他关键词,这与阿里巴巴和腾讯的情况形成了鲜明的对比.而此时分别以阿里和腾讯为研究对象的关键词知识图谱网络与华为在2004—2008年这个时间段相似.

从单个企业的关键词知识图谱网络的演化角度来看,以华为为研究对象的关键词分布先是出现多个重要的关键词,接着变得均匀,在最后一个阶段时虽然网络规模较之前两个时间段的网络相似,但关键词越来越集中.以华为为研究对象的知识图谱网络中专利、技术等是大家专注的热点.以阿里和腾讯为研究对象来看,其网络规模越来越大也越来越复杂,频次较高的关键词也是比较均匀,并不像华为的情况中越来越聚焦关键词“华为”.针对阿里构成的关键词网络首先以“电商”为核心,逐步扩散到“B2B”“中小企业”、最后为“互联网金融”“跨境电商”和“双层股权结构”,针对阿里的研究变得多样.而腾讯最开始大家更多专注的是它的“盈利模式”,之后就是熟悉的“即时通讯”“微博”等研究热点构成的网络中心,最后一个时间段则是当下的风口——“移动互联网”“微信”“视频网站”等构成的网络核心.

3 知识图谱网络结构的演化分析

上节中直观地给出了关键词的知识图谱演化,但这些节点之间的关系如何?关系如何变化?为了进一步分析知识图谱网络结构的演化,首先抽取网络的最大联通集团,然后分析网络的演化特征.首先,分析知识图谱网络节点的分布演化情况.复杂网络节点的异质性是对节点分布均匀情况的一种度量.真实世界网络中节点之间的连接选择并不是均等的,而是存在明显的偏好.连接偏好导致网络中节点与节点之间的连接存在某种相关性,Newman根据复杂网络节点之间这种连接相关性,提出同配(assortativity)和异配(disassortativity)概念来区分节点之间的这种连接偏好,并利用匹配系数来量化节点之间的连接关系[26].如果网络中度大的节点倾向连接度大的节点,这样的网络称为同配网络;如果度大的节点倾向连接度小的节点,这样的网络称之为异配网络.一般采用如下公式度量:

(2)

式中,M为网络总边数,ji和ki分别为第i条边两端节点的度,度即节点的邻居数.r值范围为[-1,1],若r>0,则表明网络为同配,反之则为异配.另外复杂网络熵也是反映网络异构性的重要指标.一般地,网络结构越是均匀有序,则熵值越大;反之,熵值越小.文献[27]根据节点拥有边的 (相对) 数量概率分布的不确定性反映网络的异构性:

(3)

其中,Ii为网络节点归一化的度,即用来说明网络节点的重要程度.

(4)

图6给出了3个时间片段2004—2008年,2009—2013年和2014—2018年中知识图谱网络的异配系数与结构熵.从图6(a)中可以看出,以华为为研究对象的图谱网络的异配系数最小在-0.05左右变化.腾讯的最小在-0.075左右,变化很小.而以阿里巴巴为研究对象的图谱网络的异配系数在第一个时间段时非常接近-0.2,之后两个时间段的数值在-0.1左右.三者都是异配网络,说明都有度大的节点倾向连接度小的节点的特征,即表明在硕博士论文中热点研究总倾向于与新的研究问题相结合.而且这个观点也在结构熵的分析中得到证实,从图6(b)中可以看到以3家企业为研究对象图谱网络的结构熵都是增大的,导致网络从片面化节点连接方式转变为全局化节点连接方式,使节点连接方式富有多样性,从而也表明硕博士论文中研究点也越来越多样,可以猜测硕博士的论文研究范围越来越广,也越来越富有创新性.

图6 知识图谱网络异配系数与结构熵演化Fig.6 Evolution of knowledge graph network mismatch coefficient and structure entropy

4 结论

从以上分析可以知道,网络结构越来越复杂,网络中心逐渐转移或多样化.论文研究趋势是热点研究与新问题研究相结合的方式,而且硕博士论文的研究越来越广,也越来越富有创新性.本文针对搜集的数据进行了各个学科的总体分析,比较有趣的是以3家企业为研究对象时,前3个学科都涉及了工商管理学科,但同时很明确的是分别以3家企业为研究对象的学位论文都是以3家企业为特色展开的,如华为涉及工商管理类,阿里巴巴是商业经济类,腾讯则是新闻传播类.因此接下来的工作是进一步针对性分析,并搜集更多有助于企业研究的数据比如将企业范围扩展到中国500强.

猜你喜欢

图谱阿里巴巴华为
高清大脑皮层发育新图谱绘成
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
现在的余华为谁写作?
赛力斯华为智选SF5
绘一张成长图谱
华为没有成功,只是在成长
阿里巴巴与四十大盗
华为
主动对接你思维的知识图谱
阿里巴巴:股大大,权大大,还是钱大大?