基于综合指数和知识图谱的水族文献核心作者群分析研究
2019-07-08杨秀璋夏换于小民项美玉
杨秀璋 夏换 于小民 项美玉
摘 要: 大数据时代,科研成果层出不穷,为了让科研工作者在海量文献中精准识别出文献的核心作者和科研群体,挖掘出作者间的合作关系,文章提出了一种基于综合指数和知识图谱的水族文献核心作者群识别方法。该方法采用Python抓取中国知网1953至2018年间990篇水族文献,结合发文量和被引用量构建综合指数遴选水族文献核心作者前20位,基于知识图谱和共现矩阵构建水族文献作者间的合作关系。据此梳理出我国水族文献的核心科研群体,明晰了水族研究的核心人物和团队现状,为水族文化研究提供了科学指引和参考依据,对传承与弘扬民族传统文化具有重要意义。
关键词: 水族文献; 知识图谱; 综合指数; 核心作者群; 普赖斯定律
中图分类号:TP391 文献标志码:A 文章编号:1006-8228(2019)04-13-05
Abstract: In the era of big data, scientific research results have emerged in an endless stream. To accurately identify the core authors and research groups in the vast literature, and to explore the cooperation between authors, this paper proposes a method for identifying the core authors of Shui literature based on comprehensive index and knowledge map. This method uses Python to capture 990 Shui documents from 1953 to 2018 in China, and combines the volume of publications and the cited quantity to construct a comprehensive index to select the top 20 core authors of Shui literature. Based on the knowledge map and co-occurrence matrix, the authors of Shui literature are constructed. On this basis, the core scientific research groups of China's Shui Nationality literature are sorted out, and the core figures and team status in studying Shui Nationality are clarified, which provides scientific guidance and reference basis for the study of Shui culture, and is of great significance for inheriting and carrying forward the national traditional culture.
Key words: Shui literature; knowledge map; comprehensive index; core author group; Price's law
0 引言
核心作者是学科研究的坚实基础[1],决定着学术成果的质量。随着学术成果呈爆炸式增长,如何精准地识别出文献的核心作者和科研群体变得越来越困难。传统的核心作者识别方法是看发文量而忽视了论文的质量,缺乏利用知识图谱或社交网络技术构建核心作者间的关系,识别结果也往往比較片面[2]。
近年来,国内外学者致力于学术文献研究。姜春林通过文献计量历时法对《科学学研究》做出全面的计量分析[3]。梁永霞等基于CSSCI中国引文数据进行了分析和可视化研究[4]。黄晓斌等统计、分析我国情报学高被引论文,展示情报学的发展历程和学科主题[5]。蔡文伯等通过计量分析方法研究我国民族教育文献态势[6]。王宗水等基于1998-2014年中国社会科学引文数据分析社会网络范式的演化与发展[7]。徐庶睿等利用引文内容进行主题学科交叉类型分析[8]。同时,随着机器学习和人工智能技术迅速发展,知识图谱和社交网络技术也被运用来挖掘学科核心作者,分析学科发展脉络。罗双玲等提出了基于半积累引文网络社区发现的学科领域主题演化分析方法,并应用于“合作演化”领域[9]。马文博等通过文献计量方法和知识图谱分析《经济研究》近十年载文[10]。任晓松等归纳研究中国碳排放热点演化并构建知识图谱[11]。
水族是一个历史悠久和文化古朴的民族,具有重要的历史和文化价值[12]。1953年至2018年7月,中国知网共收录水族相关文献990篇,涉及水族文化、水族医学、水书文字、水族体育等主题。水族文献作为水族文化交流的重要载体,有效地推动水族文化的发展。当前水族领域的研究更多的是采用传统的查阅资料、现场考察及问卷调查的方法,核心作者识别仅考虑了发文量,没有采用综合指数和知识图谱来研究水族文献,缺乏对水族核心作者和科研团队深层次地挖掘。针对这些不足,本文依据普赖斯定律来确定水族文献核心作者候选人,提出了一种结合发文量和被引用量的综合指数方法遴选水族文献核心作者;基于知识图谱和共现矩阵构建水族核心科研群体及作者间合作关系。
1 研究方法
1.1 算法总体流程
本文旨在分析中国水族文献的核心作者及科研群体,具体流程如图1所示。
1.2 数据采集及预处理
本文旨在挖掘中国知网水族文献的核心作者,分析水族科研群体及研究主题。抓取了中国知网1953年至2018年7月间990篇水族学术成果,详细信息如表1所示。对所抓取的文献进行数据预处理,这是为了得到质量更高和更完整的信息数据,从而为后续的实验提供有效支撑。本文的数据预处理操作包括中文分词、缺失值处理、停用词过滤。
2 基于综合指数的水族文献核心作者分析
结合文献的发文量和被引用量来综合确定核心作者候选人,再通过普赖斯定律计算核心作者候选人的最低发文量和最低被引用量,只要符合两者之一则可以作为核心作者候选人进入测评样本[13],再进一步计算水族文献的核心作者。步骤如下:
3 基于知识图谱的水族核心作者群分析
针对水族文献核心作者群分析,本文提出了一种基于知识图谱和共现矩阵的识别方法,构建中国知网水族文献作者间的关系,从而挖掘出对水族文化做出重要贡献的科研群体。其分析流程如下:
首先计算出1953-2018年收录于中国知网的990篇水族学术成果的所有作者名单。
构建水族学术成果作者间的共现矩阵。当两名作者合作完成一篇学术文章时,则认为共现并构建一条相关联的边,其边所对应的权重加1;否则当两名作者没有合作关系时,其权重为0。
采用Gephi构建水族作者间合作关系的知识图谱,并得出如图2所示的实验结果。图2中圆圈代表发文作者,圆圈越大发文量越多,反之越少;连线代表作者间的合作关系,连线越粗合作次数越多,反之越少。该知识图谱共构建了497个核心作者和1095条关系,并将经常合作的科研群体聚集在一起,形成了以余跃生、顾晓艳、何燕、吴昌学、刘世彬、单可人、戎聚全、潘朝霖等学者为核心的学术研究团体。
为了更好地挖掘出水族文献的核心科研团队,本文通过计算每个节点的度和每条边的权重,过滤掉合作较为单一的节点及关系,将水族领域的核心科研群体聚集在一起,得到如表3所示的五个水族文献核心科研团队,他们对水族领域的研究有着突出的贡献。其中以余跃生、戎聚全、杨胜文等为首的科研团队来自黔南民族医学高等专科学校,主要研究方向为水族医学和水族基因,代表著作有《贵州水族人群线粒体DNA序列多态分析》、《贵州南部6个民族5对遗传性状的基因频率》;以何燕、单可人、任锡麟等为首的科研团队来自贵阳医学院,主要研究水族医学及心血管疾病,代表著作有《贵州三都水族Y染色体单倍型频率分析》、《贵州三都水族β-地中海贫血筛查及基因分析》;以顾晓艳、张东秀、王亚琼等为首的团队研究方向为水族体育和水族传承,来自黔南民族师范学院,代表著作有《水族传统体育舞蹈的保护与传承》、《对水族山寨原生态传统体育文化的调查研究》;以赵凌、谢传红、石维武为首的科研团队主要研究水族音乐和水族乐器,来自黔南民族师范学院,代表著作有《贵州三都水族端节铜鼓音乐文化考察与分析》、《马联村水族端节铜鼓音乐文化初探》;以魏萍、韦艳萍、赵苏萍等为首的科研团队主要研究水族儿童体格发育,来自黔南州中医医院,代表著作有《贵州省黔南州农村布依、苗、水族儿童体格发育状况调查及其影响因素分析》、《黔南州农村水族和布依族7~12岁女性儿童骨骼发育差异性比较》。
4 结束语
本文采用基于综合指数和知识图谱的方法研究中国知网的水族文献,涉及1953-2018年共990篇水族领域的学术成果。实验结果表明,本文提出的基于普赖斯定律和综合指数的文献核心作者识别方法有效可行,从发文量和被引用量两方面评估核心作者,并挖掘出水族文献前20位核心作者,包括余跃生、顾晓艳、王亚琼等。本文基于知识图谱和共现矩阵的水族核心作者群识别方法,有效构建了水族作者间的合作图谱,挖掘出以余跃生、顾晓艳、何燕、吴昌学、刘世彬、单可人、戎聚全、潘朝霖等学者为核心的水族科研团体,这些团队主要来自于黔南民族医学高等专科学校、贵阳医学院、黔南民族师范学院、黔南州中医医院等机构。
本文提出的方法精准地识别出水族研究的核心作者及科研团队,展示了研究我国水族文化、水族医学、水族体育、水族文字领域的专家人群及研究方向,有效地把握水族学科脉络,减轻了人力筛选和分析的负担,提高了研究效率和准确度,为大数据时代提高论文索引效率、分析研究群体、识别核心作者提供有效支持。同时,本文为下一步的水族文献挖掘、追踪水族源流、研究水族群体变迁、保护和传承水族文化提供有效支撑,对传承与弘扬民族传统文化具有重要意义,该研究成果具有一定的应用前景和实用价值。
参考文献(References):
[1] 廉清.《图书情报工作》核心作者群分析研究[J].现代情报,2004.11:55-59
[2] 钟文娟.基于普赖斯定律与综合指数法的核心作者测评——以《图书馆建设》为例[J].科技管理研究,2012.2:57-60
[3] 姜春林.基于文献计量学历时法引文的案例分析[J].现代情报,2005.10:140-145
[4] 梁永霞,杨中楷,刘则渊.基于CSSCI的中国引文分析的可视化研究[J].情报研究,2008:34-38
[5] 黄晓斌,张欢庆.我国情报学高被引论文分析[J].情报科学,2018.36(1):54-60
[6] 蔡文伯,马杰.我国民族教育研究文献态势的计量分析[J].民族教育研究,2014.25(2):138-144
[7] 王宗水,赵红,刘宇,秦续忠.社会网络研究范式的演化、发展与应用——基于1998~2014年中国社会科学引文数据分析[J].情报学报,2015.34(12):1235-1245
[8] 徐庶睿,章成志,卢超.利用引文内容进行主题级学科交叉类x型分析[J].图书情报工作,2017.61(23):15-24
[9] 罗双玲,张文琪,夏昊翔.基于半积累引文网络社区发现的学科领域主题演化分析——以“合作演化”領域为例[J].情报学报,2017.36(1):100-110
[10] 马文博,陈占明.《经济研究》近十年载文的文献计量与知识图谱分析[J].现代情报,2018.38(2):148-156
[11] 任晓松,孙天美,赵国浩.中国碳排放研究热点演化知识图谱分析[J].科技管理研究,2018.10:235-243
[12] 饶文谊,梁光华.关于水族水字水书起源时代的学术思考[J].原生态民族文化学刊,2009.4:90-93
[13] 丁学东.文献计量学基础[M].北京大学出版社,1992:204-209,220-232