自适应聚类视角下学科领域主题分析
——以物流学科为例
2021-04-02张丽萍陈凌凌万校基
张丽萍,陈凌凌,万校基
(1.华侨大学 发展规划处,福建 泉州 362021;2.华侨大学 工商管理学院,福建 泉州 362021)
0 引言
高校科研人员在开展科研选题时,需要对相关学科领域发展趋势和热门研究主题有比较清晰的认识。为了精准识别相关学科领域主题,亟需通过高效研究方法对海量文献资源进行挖掘分析。
目前,传统学科领域文献主题研究经常使用文献计量方法,如词频分析法[1-3]、共词分析法[4-6]等。词频分析法主要是利用关键词或主题词在某一研究领域文献中出现频率的高低来确定领域研究热点和发展趋势[3]。共词分析法是根据两两统计一组关键词在同一篇文献中出现的次数进行聚类分析,生成共词文献簇,进而分析这些关键词所代表的学科和主题的结构变化,从而进行学科发展预测[4]。虽然这些方法简单直观且易于被研究者接受,但是由于词频阈值设定偏主观,共词分析又经常将所有关键词视为同等重要,显然由这些方法获取到的主题不可避免会存在一定偏差。
为了客观认识关键词在不同文献中的主题体现,现有研究大多以高频低频词分界公式、Zipf 第二定律、词频h 指数、词频g 指数等数理统计方法作为关键词频率显著性变化的判断标准,并将其作为某领域研究主题发展或变迁的判断依据[7]。然而,上述统计方法仅以词频来计算关键词权重,容易出现“同量不同质”的问题。为了克服“同量不同质”问题,李海林,等[8]根据关键词排列顺序,度量了关键词在不同文献中的重要性程度,这种根据重要顺序计算关键词权重的办法,虽然一定程度上提高了关键词权重质量,但是由于可能受到作者潜意识行为习惯的影响,在某种程度上也会偏离真实性。为了客观度量文献关键词的重要性,本文将在前人研究成果的基础上,结合作者潜意识行为习惯和数理统计等角度来度量关键词的重要性,即基于关键词排列顺序和其在标题、摘要中出现的次数来综合计算关键词权重。与此同时,再借助近邻传播聚类算法对学科领域主题进行自适应识别与分析。
本文的贡献主要体现在以下几个方面:(1)依关键词排列顺序和出现频次计算关键词重要性,不仅有考虑到大部分作者按照重要顺序摆放关键词的潜意识行为习惯,而且也兼顾到了数理统计等定量方法的应用,客观呈现了关键词在不同文献中的语义表现力和重要性,进一步提高了主题分析质量。(2)借助共词分析法、相似性度量法和AP聚类算法对高频关键词进行自适应聚类,消除了传统层次聚类、多维尺度分析等人为设定聚类个数和尺度大小等主观因素的影响,为快速有效识别相关学科领域主题提供了理论支撑。(3)从自适应聚类视角挖掘分析出物流学科热门主题,为高校物流科研人员的学术活动提供了方向指导。
1 研究思路与方法
1.1 研究思路
针对传统文献主题分析法获取到的主题质量不高的问题,结合关键词排列顺序和其在标题、摘要中出现的频次,综合计算了关键词在不同文献中的重要性,通过共词分析法构建加权关键词相似性矩阵,借助近邻传播(Affinity Propagation,AP)聚类算法对该相似性矩阵进行自适应聚类,以每个簇中心代表对应簇核心主题,再结合关键词综合权重,客观归纳总结相关学科研究热点。本文具体研究思路如图1所示。
图1 研究思路
1.2 关键词重要性
关键词可以清晰、直观地表达文献论述的主题,是文献主题描述的重要参考。一篇文献的主题会用多个关键词来共同描述,而这些关键词对这一篇文献主题描述的程度也不是相同的,并且同一个关键词在不同的文献中同样具有不同的重要性。因此,需要对关键词在每一篇文献中的重要性分别进行度量。李海林,等[8]结合关键词在文献中的不同顺序计算了关键词的权重,然而其在计算权重过程中,可能存在部分学者并不按文献主题的相关程度给出关键词的问题,因此容易受到作者主观意识行为的影响,导致所计算出来的权重偏离实际。词频表示一个词在文中出现的频率,通常我们认为一个词若是频繁地出现,就可能是文献的核心词,对文献主题描述的贡献程度就越高。标题、摘要是一篇文献的重要组成部分,概括了整篇文献研究的重要内容,因此出现在标题、摘要中的关键词具有一定的代表性。本文将基于关键词排列顺序和其在标题和摘要中出现的次数,综合计算关键词在不同文献中的重要性程度,具体计算过程如下:
(1)计算关键词顺序权重。设文献p中作者给出了X 个关键词来描述主题,根据先后顺序形成关键词集合Keyp*={keyp1,keyp2,...,keypX} ,根据文献[8]可知,文献p中的第k个关键词的顺序权重为:
(2)计算关键词频率权重。设文献p中第k个关键词在标题和摘要中出现的频次为ck,则文献p中的第k个关键词的频率权重为:
(3)计算关键词综合权重。综合考察关键词排列顺序和其在标题摘要出现的频次,以式(1)和式(2)计算出的权重平均值来代表文献p中第k个关键词的综合权重:
(4)关键词重要性。根据式(3)计算每个关键词在每篇文献中的综合权重,将不重复关键词的综合权重平方和作为对应关键词在文献集中的重要性,即文献数据中第i个关键词的重要性为:
其中 N 表示文献数量,i ∈ keyp*表示第 i 个关键词出现在第p 篇文献关键词集keyp*中,wkeypi"表示第i个关键词在第p篇文献中对应相同关键词i"的权重,若其出现在相应文献中,则其对应权重由式(3)给出;否则,记为0。
1.3 关键词相似性
传统方法中,衡量不同关键词之间的相似性经常采用Ochiai系数,但Ochiai系数只是考虑了关键词共同出现的频次,不能体现关键词对不同文献主题描述的贡献程度大小。为了使相似性度量能够体现关键词的重要程度,在Ochiai 系数的基础上加入权重,带权重的相似性计算公式为:
其中N为文献集合中总文献数量,wkeypi"*wkeypj"表示关键词i 和j 共同出现在第p 篇文献关键词集中keyp*的权重,wkeypi"和wkeypj"的定义类似公式(4)提供的定义。显然,关键词i和j之间的相似性在0到1之间,相似性越高的两个关键词,计算出来的值就会越大。
1.4 近邻传播聚类
传统聚类算法,如Kmeans 算法对起始中心点的选择具有随机性,且容易造成局部最优解情况。为避免这个问题,Frey,等[9]提出了近邻传播(Affinity Propagation,AP)聚类方法。该算法是把所有数据点当作网络的节点,根据每一条边的消息传递得出数据集的聚类中心。聚类过程中,吸引度和归属度会在每个节点之间传递,并在迭代过程中不断更新每一个点的吸引度和归属度值,一直到有一定数量的高质量聚类中心为止,最后把所有的数据点划分到对应的聚类中。与传统聚类算法相比,该算法不需要设定聚类中心数量,不需要人为选择或者概括聚类中心,同时对相似性矩阵无对称性要求,在处理数据时运行速度较快,性能较好[10-13]。因此,本文将借助该聚类算法对学科文献主题进行自适应提取与分析。
设任意两个数据点i和k之间的信息量为吸引度r(i,k)和归属度a(i,k),其中r(i,k)说明点i 作为点k的类代表点的支持程度,a(i,k)说明点 k 选择点 i 作为其类代表的适合程度。AP算法的具体实现步骤如下:
近邻传播聚类C=AP(S)。
输入:数据之间的相似性矩阵S。
输出:数据点的代表对象集合C。
S1:更新信息传递中的r(i,k)、a(i,k)和a(k,k)。
S2:引入阻尼系数λ,降低可能出现的震荡。
S3:确定数据点i的代表点。
S4:当聚类结果趋于稳定或达到设置的迭代次数后停止算法,输出数据点代表对象集合C;否则,执行步骤S1至步骤S3。
AP聚类算法通过更新和传递吸引度r(i,k)和归属度a(i,k),使得数据在不同的替代次数下数据点Zi存在具有吸引度和归属度信息量最大的点Zk作为Zi的代表对象,记为Oi,直到达到结束条件为止。
2 实验分析
为了验证本文所提方法的有效性和可行性,下面将以物流学科领域文献为例开展主题分析。
2.1 数据来源
以CSSCI数据库收录的期刊文献为数据来源,检索“篇名”或“关键词”中含有“物流”一词,并且时间范围为2015年1月-2019年12月的期刊文献,最终获得物流相关研究文献1 271 篇,剔除无关键词文献,合并文献中共同关键词,最后可得到有效文献1 269篇和3 081个不重复关键词。
2.2 关键词重要性
根据关键词重要性计算公式(4),提取重要性在排名前50的关键词,见表1。
从表1中可以看出,重要性排名前四位的关键词分别为物流业、物流产业、物流和物流企业,其重要性均超过5,它们是物流领域各个方面都会涉及到的概念。重要性排在第五位至第八位的关键词分别是区域物流、冷链物流、绿色物流和农产品物流,是近五年物流领域研究的重要方面。在前五十个重要关键词中,长江经济带、丝绸之路经济带、一带一路、物流产业集聚、京津冀、区域经济等与区域物流息息相关;与绿色物流关系较大的有碳排放、逆向物流等;与农产品物流相关的有农产品、农村物流、生鲜农产品等。供应链、物流成本、物流效率、智慧物流、跨境电商等方面也是物流领域研究的重要方面。
表1 2015-2019年物流领域前50个重要关键词
2.3 物流核心主题提取
考虑到AP 聚类算法在迭代过程中可以进行更好的簇划分,并且聚类后得到的每个簇中心代表关键词与同一簇中其它关键词最为相关,因此可借助AP聚类算法实现物流核心主题提取。
以表1中50个重要关键词为基础,通过式(5)构建50*50 关键词相似性矩阵,借助AP 聚类算法对其进行自适应聚类。当迭代次数达到154次时,可以得到13个稳定的主题簇,簇中心分别为一带一路、丝绸之路经济带、众包物流、供给侧改革、农产品、农产品物流、区域物流、物流、物流业、物联网、电子商务、跨境电商、长江经济带等。AP聚类具体结果见表2。
2.4 物流学科主题分析
2.4.1 物流学科主题簇内涵分析。从簇内成员数量来看,与核心主题“丝绸之路经济带”同属一个主题簇的成员数量最多,一共有8 个成员与之存在联系,而核心主题“跨境电商”与“长江经济带”包含的成员数量次之,一共有5个成员。其它核心主题包含的成员均在4 个以内。特别地,核心主题“众包物流”“区域物流”周边没有任何主题成员,表明与“众包物流”和“区域物流”有关联的研究尚属空白。
表2 物流核心主题及簇内成员
从簇内成员相互关系来看,核心主题与同一簇内成员关系紧密,或相似或高度相关,其具体关系如下:
(1)核心主题“一带一路”沿线各个地域和国家物流业态多元,涉及范围广,关系到众多国家和地区经济、社会、文化、政治等方面的问题。在这种情况下,大数据的应用就显得格外重要。面对一带一路上多元文化信息繁多,亟需完善大数据体系建设。
(2)核心主题“丝绸之路经济带”概念的提出以及相关政策与战略的实施给中国物流业带来了新的发展机会。近5 年物流领域从多个方面对丝绸之路经济带进行了研究。丝绸之路经济带上物流发展应以点带面,从线到网,形成区域物流网络。实现沿线交通基础设施和中心城市资源的合理利用,实现经济带内贸易和生产要素的优化配置,促进物流业效率提升,促进物流发展。
(3)核心主题“供给侧改革”对农村物流的发展是一次巨大挑战,农业发展矛盾不再以生产矛盾为主,而以流通矛盾为主,亟需进行农产品供给侧改革。同时,物流业供给侧改革需要不断创新,首先是服务创新,物流服务应该更加专业化、多元化,改变物流产业的内容和结构;其次是物流技术创新,以信息技术为核心,结合管理手段、商业模式以及供应链整合;最后是物流组织创新,物流组织形式在向大型化、集群化、平台化方向转变,促进了第四方物流发展。
(4)核心主题“农产品”和“农产品物流”主要内容都是关于农产品的流通。农产品是农村经济发展重要的一环,农产品物流缺乏效率将导致农产品无法顺畅流通,有些农产品需要很高的时效性且对保鲜具有高要求,否则将造成巨大的损失。国家积极出台农产品流通扶持政策,出台冷链标准。同时随着环境可持续发展理念的深入,农产品绿色物流也持续受到关注。农产品绿色物流一是强调流通过程中农产品质量的保持,减少产品的破损和变质;二是强调流通过程中不对环境造成污染。农产品物流园区是农产品物流向着规模化、功能化、集约化发展的关键,农产品配送效率的提高、损耗率和流通成本的降低都要依赖农产品物流园区的发展。
(5)核心主题“区域物流”与区域经济发展是相互促进、相互制约的,应促进二者协调发展、可持续发展。现代物流产业是经济发展的新增长点,区域物流对区域经济发展做出重要贡献。
(6)核心主题“物流”涵盖内容广泛。京津冀区域经济发展离不开当地区域物流的发展,京津冀地区产业结构的调整推动了物流体系的发展。供应链的相关研究也是物流领域研究非常重要的一部分。
(7)核心主题“物流业”与制造业联系密切,物流业为制造业提供服务,二者相互促进与制约。我国物流业碳排放量比较高,且处于比较快增长的趋势,推进物流业向低碳物流转型十分必要,也是政府、企业、研究者关注的重点。
(8)核心主题“物联网”在物流业中使用广泛,主要用于物流信息的传递、转换和处理。物联网的应用对物流业智能化、自动化和信息化水平有很大的提升,有助于智慧物流的发展。利用物联网技术可以有效解决生鲜物流配送、逆向物流中数据采集效率低下、实时调度性差等问题,实现实时监控。
(9)核心主题“第三方物流”是由中间商来承担物流业务的一种模式,其以买卖之外第三方的身份提供物流服务,可以提高物流资源利用率,从而降低物流成本,促进电子商务的发展。
图2 关键词重要性及聚类结果
(10)随着经济全球化格局的形成,核心主题“跨境电商”已成为电商发展的趋势,物流企业的经营模式和理念发生了巨大变革。物流企业想要保持并提高企业的竞争力就要注重物流成本的管理。同时,信息技术的发展提高了物流企业优化和整合资源的能力,促进了现代物流的发展。
(11)核心主题“长江经济带”区域物流产业集聚现象越来越明显,物流产业集聚有助于物流发展向集约化、规模化、效益化转变,对各区域的物流运行质量和经济竞争力有明显的改善和提高,显然,能够进一步提升物流产业效率和物流效率。
2.4.2 物流学科热点主题分析。图2 为关键词重要性及聚类结果,图中柱形图高度代表关键词重要性,从左至右,每一个簇的第一个柱形图表示主题簇的核心主题,并且各个主题簇之间空一格。
由图2可知,具有高重要性的关键词不一定是核心主题,核心主题与同簇内其它成员关键词最为密切,重要性高的关键词表示自身受到的关注程度高,二者既有联系也有区别。结合物流学科领域核心主题与关键词重要性,可以归纳出以下七个物流学科研究热点:
(1)降本增效。降低物流成本,提高物流效率一直都是物流发展的首要目标,也是物流学科理论研究的重要话题。其中“物流成本”“物流效率”“物流产业效率”“物流业效率”“效率”在关键词重要性中分别排在第17、29、39、42、50 位,相关的核心主题包括跨境物流、长江经济带、丝绸之路经济带、农产品物流。我国物流运营效率低,物流成本很高,特别是生鲜农产品物流。从政府角度来看,物流业降本增效有助于国民经济发展,2017 年国务院办公厅印发《关于进一步推进物流降本增效促进实体经济发展的意见》,对物流相关工作进行部署,为物流业发展提供了良好的环境;从企业角度来看,物流被看作是第三利润源,是企业降低成本、提升竞争力的关键。企业要做到降低物流费用的同时保证物流服务水平,只有通过新的维度、新的模式去实现物流的降本增效。因此,物流降本增效相关理论和创新也一直持续受到关注。
(2)区域物流一体化。区域物流一体化指在一定的经济区域范围内,对区域物流资源进行优化整合和一体化运作而形成的区域性物流综合体系。区域物流作为核心主题,包括区域物流和区域经济两个成员,区域物流重要性排名第五,自身受到的关注程度高,并且其中长江经济带、丝绸之路经济带、一带一路、京津冀都属于区域性物流。全球经济一体化是大势所趋,各地政府都在积极推动区域经济与区域物流的发展。我国区域经济发展不平衡,物流业发展具有区域性特点。区域物流的发展有利于优化产业结构与资源配置,改善投资环境,提升物流效率,促进区域经济发展。区域物流一体化研究建立在区域经济一体化研究的基础上,所以近几年区域物流以及区域物流一体化的相关理论多是从京津冀、长江经济带、丝绸之路经济带等经济圈的角度进行研究。
(3)现代物流技术研究与创新。现代物流发展需要依托现代信息技术,互联网的发展、物联网的应用大大提高了物流过程的优化与整合。全社会物流需求量剧增,同时要求物流服务质量不断提高,现代物流业必须采用更加先进的设备和技术,需要不断加强仓储、运输、包装等环节的技术创新,这就促进了物流技术的研究和应用。以往物流技术更注重于产品运输的效益,后来随着计算机技术的普及,促进了电商物流的发展,如今物流行业逐渐向“数智化”转变。近几年,智慧物流、物联网、大数据、云计算等逐渐成为社会关注的热点和理论研究的重点。
(4)物流体制改革与产业转型升级。我国物流体制改革要求建立完善的物流管理体制;搭建完备的物流网络;建设完善的物流基础设施,开发物流技术。深化物流体制改革,需要不断推进物流供给侧改革,推广供应链管理模式,发展第三方、第四方物流,促进物流业转型升级。对此,物流相关理论研究也在加强对物流体制改革、建立物流综合管理体制、物流产业转型升级的探讨。
(5)农村物流与农产品物流。国家对“三农”问题十分重视,着力农村物流发展,促进农业现代化发展。相关的核心主题包括农产品、农产品物流以及供给侧改革,相关关键词中冷链物流、绿色物流、农产品物流的重要性很高,说明本身关注程度很高。在农村物流的相关研究中,农产品物流受到很大的关注。农产品物流对保鲜、时效具有非常高的要求,需要有高效率的流通模式和物流体系,对冷链物流、绿色物流要求严格。农产品物流园区可以借助园区物流基础设施,优化农产品配送模式,所以对于农产品物流园区的探索也是农村物流的重要内容。农产品物流问题已成为当下经济研究的一个热点话题,通过研究农村物流、农产品物流,可以促进现代化农产品流通体系建立,有效解决农村物流中货流不畅的问题。
(6)电子商务与跨境电商。全球经济一体化促进贸易一体化发展,进而促进跨境电子商务的发展。互联网技术、第三方支付平台以及第三方物流的发展为电子商务中信息流、资金流、物流的实现提供了必要条件,国际物流发展促进电子商务向跨境电商延伸。电商物流、跨境物流也成为了研究者关注的重点。
(7)可持续发展理念。可持续发展理念日益受到人们的关注,绿色物流、碳排放是其在物流领域的重要体现,是物流理论研究的重点。绿色物流、碳排放在关键词重要性中分别排在第7 位、第9 位,涉及到农产品、物流业两个重要性同样很高的核心主题,可见近几年在这方面的理论研究是非常多的。虽然可持续发展理念在物流研究中受到特别关注,但要真正落实好并取得成效还有很长的路要走。必须进一步发展绿色物流,提倡绿色运输、绿色包装、开发绿色技术、制定绿色法规等,减少物流活动中碳排放量,减少能源消耗,注重效率与效益的统一,将可持续发展的理论研究与实际物流发展相结合。
3 结语
本文提出了一种学科领域文献主题分析方法,结合关键词排列顺序和其在标题和摘要中出现的频率对关键词重要性进行了定量综合计算,借助近邻传播AP 聚类算法对高频关键词相似性矩阵进行了主题自适应聚类,以物流学科领域文献为例,验证了主题分析方法的可行性和有效性。研究结果表明:(1)重要性程度更高的关键词不一定是核心主题,核心主题是与其它主题成员关系更为密切的关键词。(2)近五年,物流学科存在“降本增效”“区域物流一体化”“现代物流技术研究与创新”“物流体制改革与产业转型升级”“农村物流与农产品物流”“电子商务与跨境电商”“可持续发展理念”等七大热点主题。本文改进了过去单独以词频或者排列顺序度量关键词重要性的方式,提升了关键词在主题分析过程中的质量,同时也避免了人为设定聚类数目及尺度大小等主观因素的影响,不仅丰富补充了数据挖掘技术在主题分析上的应用,也为高校相关科研人员的研究方向选择提供了参考。
本文在具体研究过程中仍存在一些不足,如在获取关键词在标题和摘要中的频次时,容易忽略“同义不同形”关键词对关键词权重计算的影响。同时,在借助AP 聚类算法自适应获取核心主题过程中,有可能会获得一些相似的核心主题。借助语义挖掘分析工具降低“同义不同形”关键词的影响,多次进行主题聚类,避免核心主题近似等方面的研究仍值得未来进一步探索。