APP下载

石油工程领域热点主题和研究前沿探索

2020-11-11李美凝赵雄虎景民昌

天然气与石油 2020年5期
关键词:发文聚类石油

李美凝 赵雄虎 景民昌 王 飞

1. 中国石油大学(北京)图书馆, 北京 102249; 2. 中国石油大学(北京)石油工程学院, 北京 102249

0 前言

石油作为人类社会能源的重要组成部分,在世界经济的发展、人类社会生活与文明中占有极其重要的地位。石油前沿领域的占领程度关系到国家在国际竞争中的优势和地位。石油工程是石油领域最具代表性的工程技术,是一种运用科学的理论、方法、技术与装备高效地钻探地下油气资源、最大限度并经济有效地将地层中的油气开采到地面,安全地对油气进行分离、计量与储运的工程技术[1]。因此,针对石油能源领域,开展石油工程研究热点和研究前沿的探索,对促进石油工业可持续发展具有重要意义。

近年来文献计量学技术迅速发展,为论文数据可视化研究提供了有效的途径,文献计量学具有处理文献量大、直观可视化、分析角度多样、数据分析结果可信度高等优势特点,弥补了传统文献综述研究参考文献量少、只能定性归纳和分析、客观性较弱等不足[2]。社会网络分析方法是对各种不同单元的社会结构及其属性进行分析的方法,能够可视化合作网络、引文网络以及主题关联网络等,为领域主题发现、领域结构挖掘和技术预测等提供重要途径[3]。目前,基于文献计量学和社会网络方法的数据可视化技术已经在不同领域被广泛应用[4-5],如郑江平等[6]基于可视化软件进行了食品科学领域国际论文合作的文献计量分析;曾硕勋等[7]利用可视化软件形成了材料科学研究热点及其相关研究领域可视化知识图谱;栾春娟等[8]通过文献共被引和高频关键词分析对基因操作技术进行国际前沿分析,得到基因操作技术领域的经典文献和研究热点关键词。文献计量学和社会网络方法的数据可视化技术已经成为探索领域研究热点和分析领域现状、热点及前沿问题的重要方法。

本文以Web of Science核心合集数据库作为数据来源,从文献计量学角度和社会网络分析方法入手,对2008-2018年全球石油工程领域的文献进行统计,以期用定量化、可视化的手段,梳理近10年间该领域的发展态势及研究热点,全面揭示石油工程领域的研究进展和国际竞争力,为该领域科研人员和科研机构把握领域走向、洞悉未来研究热点等提供科研参考。

1 数据来源与研究方法

1.1 数据来源

本文选择Web of Science核心合集数据库的251个领域分类中的石油工程类(engineering petroleum)作为数据源。在Science Citation Index Expanded(SCI-E)数据库中检索2008-2018年相关论文21 082篇,文献类型包括学术论文(article)和研究综述(review)。对Web of Science中的数据采用“全记录与引用的参考文献”的“UTF-8”格式导出,对原始数据进行清洗,包括去重、去空白等操作之后,总计得到论文17 656篇,形成最终的分析数据。

1.2 研究方法

本文采用文献计量分析中的共词分析法(Co-word analysis)作为研究方法。共词分析法是内容分析法的一种,该方法不仅考虑了词组在文本中出现的频数,而且通过词语的共现建立起词组之间的亲疏关系。主要通过统计相同或不同类型的知识单元(包括作者、关键词、机构、参考文献等)在同一篇文献中出现的次数,构建不同知识单元的共现频数矩阵,通过网络化的方式进行表示,最终通过一定的算法比较清晰地划分出网络节点的群组结构,以知识图谱的形式展示文献中知识单元的联系程度,从而判断出研究领域的变化情况[9-11]。文中借助Vosviewer和Gephi软件进行该方法的实现和可视化展示,本文研究方法见图1。

图1 石油工程的文献计量学研究方法示意图Fig.1 Sketch of bibliometrics research methods in petroleum engineering

2 石油工程领域的基本特征

2.1 论文产出情况

石油工程领域从2008-2018年的论文总体产出情况见图2,发文量指每年发表论文的总数,被引量指当年所发表的论文在目前时间节点上被引用次数的多少。整

图2 石油工程的发文量和被引量(2008-2018)示意图Fig.2 The publication volume and citation volume of petroleum engineering(2008-2018)

体上,发文量都是随着时间的增加而增加,被引量都是随着时间的增加而减少。具体如下:全球发文量从2008年开始至2010年略有下滑,而从2011年开始,呈现缓慢增长趋势,年均增长率为6.7%,最高达到16%。中国发文量从2008年开始一直呈现增长的趋势,年均增长率为17.9%,最高达到36%。随着时间的累计,全球被引量从2008年开始出现锯齿状波动,在2015年开始逐年大幅度下降;而中国的被引量则从2008年至2011年缓慢增长,随后大幅增长,直到2015年开始下降,主要是和被引频数的时间属性相关。

2.2 核心期刊分布

石油工程领域主要研究内容为油气钻探、开采、集输等石油工业过程。该领域内容广泛,涉及力学、化学、机械、数学等多个领域的基础理论和现代技术[12],其发表论文的杂志也很多,国内石油院校及相关科研单位研究人员普遍认可的石油工程SCI收录期刊主要有26种,而国外石油院校所发表论文涉及期刊更广泛[13]。其中Web of Science核心合集数据库中关于石油工程的分类,每年都会有微小变化,但SCI-E石油工程类别中的论文主要发表在20类国内外主要被认可期刊上,见表1。

表1 2008-2018年石油工程方向的期刊列表

2.3 核心作者分析

研究石油工程的作者共有36 362位,其中发文多于1篇的作者有10 558人,占总作者数的29%。根据文献计量学的普赖斯定律[14],领域中核心作者的最低发文数量应满足如下公式:

(1)

式中:nmax为最高产作者的发文数量,篇;m为核心作者发文数量,篇。

由式(1)可以计算出石油工程领域核心作者的最低发文量为8篇,即发文量在8以上的作者为石油工程的核心作者,共790位,占总作者数的2.17%,此处核心作者包括独作者、第一作者、合作者等。由于核心作者数量较多,表2仅列出了石油工程发文量超过30篇的作者,共20名。根据数据显示,这20位核心作者共计发表文章882篇,总共被引次数为5 404,作者来源最多的是俄罗斯(310篇)、美国(227篇)、中国(140篇)。

表2 全球石油工程发文量在30篇以上的核心作者(仅限选定期刊)

2.4 研究国家和机构分布

科技论文产出的国家和机构分析利用研究人员快速地辨识全球重要研究力量的分布,对科学研究成果的吸收和科学研究合作有重要的指导意义。[15]石油工程的研究覆盖111个国家/地区,发文量在10篇以上的国家和地区有66个。其中,中国(4 947篇)、美国(3 009篇)、俄罗斯(1 688篇)和伊朗(1 420篇)发文量最高,石油工程文献的研究国家分布也显示了这些国家对该领域的重视程度。

进一步统计石油工程文献的发文机构,从5 053个机构中选择最小发文量为8篇的机构,总共490个机构,进行分析合作网络展示见图3,节点表示不同的发文机构,节点大小代表发文量的多少,节点越大,发文量越多;不同的颜色代表不同的聚类,同一颜色表明该聚类中的机构联系比较紧密;在社会合作网络中,两个机构连线越多,表示机构和其他机构之间的直接合作越多。节点在图中的位置由其社会网络属性中的中心度决定,网络内节点之间的远近可反映主题内容的亲疏关系[16-17]。节点之间的距离代表了不同节点的相似度,相似度越高,节点之间的距离越短,越容易形成聚类。

图3 全球石油工程领域机构合作网络图Fig.3 Global network of petroleum engineering institutions

首先,机构合作网络图中有5个比较明显的聚类集,分别为中国簇集、美国簇集、伊朗簇集、俄罗斯簇集以及英国簇集。其中以德克萨斯奥斯汀分校为代表的美国簇集位于网络图的正中间,且与其他节点之间的连线比较多,说明与其他机构的合作比较密切,合作机构范围比较广泛,位于石油工程的领军位置。而以俄罗斯科学院为代表的俄罗斯簇集位置相对比较孤立,位于网络图的右侧,说明其与全球其他机构的合作比较少。其次,从单独机构节点分析,中国石油大学(北京)的节点最大,说明其发文量最多,居全球之首(1 199篇),中国石油(1 050篇)、中国石化(816篇)紧随其后,具体见表3。

表3 全球石油工程机构按照发文量的排名表(发文量TOP 25)(限所选期刊)

3 石油工程热点主题及研究前沿

3.1 热点主题

关键词是文章研究内容和研究主题的集中体现,对关键词的分析,有利于挖掘领域或专业方向最核心的研究内容,以及研究主题的发展态势[18]。本文热点主题的分析从关键词频数和关键词中介中心度两个角度进行考量:关键词频数指关键词出现的次数,体现相关研究的成果数量;一个关键词中介中心度越高,说明该关键词对整个网络资源的控制能力就越强,即认为其代表的研究领域比较关键[19]。对关键词频数排名前20的关键词计算其中介中心度,按照其重要性依次为重油、提高采收率、渗透率、稠油、数值模拟、流变学、水力压裂、水平井、页岩气、催化剂、沥青质、脱硫作用、人工神经网络以及水驱等。

对文章作者提供的22 254个关键词进行分析,选择最少出现次数为12次的658个关键词进行聚类分析,绘制出全球石油工程研究主题聚类时间线图,见图4。不同的颜色代表不同的聚类集,同一颜色表明该聚类中的关键词相互联系比较紧密。每个聚类内部按主题出现的平均年份沿纵轴从下到上进行排列,各聚类之间则沿横轴按照不同聚类集合从左到右进行排列,节点大小代表关键词频数,节点越大说明出现次数越多。

图4中,横向上是不同关键词形成的聚类簇,可以看出具有比较明显的8个聚类集合,横向上从左到右依次为:原油脱硫,沥青质和稠油,水力压裂,提高采收率技术,页岩油或者油页岩,数值模拟,注水、注二氧化碳,重油开发。纵向上,随着时间的增加,致密油藏压裂,机器学习与支持向量机,油页岩热解,膜分离、过渡金属,致密砂岩压裂,EOR用纳米粒子、乳状液稳定性,多相流计算流体力学等词是较新出现的关键词,认为其代表的研究领域具有一定前沿性。

图4 全球石油工程关键词时间线图(2008-2018)Fig.4 Time map of global petroleum engineering keywords (2008-2018)

3.2 研究前沿

目前对前沿主题的识别方法都强调主题距离当前的时间要近、影响力要大[20],但领域研究前沿在核心论文数和总被引频次上会相对较小,本研究中采用主题平均时间方法和主题词增长率方法对前沿主题进行综合识别。

主题平均时间方法认为如果一个主题在某个时间范围内,平均时间距离现在越近,那么该主题就很可能是石油工程所关注的前沿主题。但实际中,发现石油工程主题的平均时间比较集中,主题频数的大小与主题的平均年份不相关,为了识别新兴前沿,选择主题平均时间大于或等于2016年的词,得到石油工程领域前20的前沿主题词,见如图5。

文献关键词出现频数可以反映相关内容的重要程度,但会忽略一些出现频数不高但是前沿的主题,而主题词增长率可以弥补前沿关键词出现次数少、被引频数少的缺点。因此,对以上得到的重要前沿主题词,进行2019年增长率计算,具体见表5。

图5 石油工程领域前沿主题词的频次时间分布图Fig.5 Frequency time distribution of petroleum engineering frontier keywords

表5 石油工程领域前沿主题的2019年增长率表(TOP 10)

研究发现致密油藏、机器学习、预测模型、致密砂岩、井漏、自适应模糊神经网络都是增长率较高的主题词。其中机器学习的增长率最快,同时分析2008-2018年之间发表的17篇关于机器学习的论文,发现中国发文量占比35%,且2019年机器学习的论文篇数迅速增长,2013年伊朗的波斯湾大学(Persian Gulf Univ)最早将机器学习应用于稠油研究,国内中国地质大学于2015年将机器学习应用于测井解释。综上认为机器学习是近年快速发展的研究方向。尤其随着大数据时代的来临,计算机技术的快速发展,人工智能等前沿领域渗入到油气行业已是大势所趋,未来我国石油研究者要对新兴产业引起足够重视,在交叉领域方面投入更多时间和精力,才能占领科学前沿。

4 结论与讨论

通过对石油工程领域SCI-E相关论文的文献计量学分析,得出以下结论。

1)2008-2018年,石油工程的研究论文总体上呈稳步增长的趋势。发文量最多的国家是中国,其次为美国和俄罗斯,中国学者与机构在石油工程领域的国际影响力大幅提高。

2)石油工程领域研究关注点已逐步从常规资源转向了非常规资源的开发,当前研究热点主要为提高采收率、水力压裂、非常规油气资源、重油开发、油藏数值模拟以及原油脱硫。其中非常规油气资源中的页岩油气相关的研究最多,影响力也最大。

3)石油工程未来前沿热点突显出两个方面,分别是非常规油气藏开发和机器学习。随着技术的进步,非常规资源的开采技术也亟需完善,将成为持续的研究热点。而随着AI人工智能和大数据的推广,必然会在将来很大程度地影响石油工程技术发展,因此两者的交叉领域将是另一个研究前沿热点。

本研究也存在一些局限:石油工程领域的研究热点与前沿中,大多数主题词都是关于油气田开发方向,而关于油气井工程与油气储运方向的较少,分析认为是由于SCI-E中石油工程一类所包含期刊的局限性造成的;石油工程的数据类型是多种多样,就科技文本类型而言,就包含了科技论文、专著、专利、管理制度、法律法规等,但本文仅选择了影响力较高期刊的article和review作为文本类型。石油工程作为一个工科领域,涉及的领域方向较多,发表论文的期刊也较广,不可能穷尽,但以行业内的主要刊物作为研究对象,其结果仍然具有积极意义,今后的研究中将采用更科学有效的方法对数据源进行探讨,以确保结果的有效性。

猜你喜欢

发文聚类石油
石油石化展会
奇妙的石油
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
面向WSN的聚类头选举与维护协议的研究综述
延长石油:奋力追赶超越 再铸百年辉煌
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现
基于加权模糊聚类的不平衡数据分类方法