APP下载

SCI论文作者自动识别方法研究

2018-10-29侯海东洪腾龙徐建良

软件导刊 2018年8期

侯海东 洪腾龙 徐建良

摘要:针对科研管理部门进行SCI论文统计时依赖人工判断识别作者、工作繁重且容易出错等问题,通过深入分析SCI论文文献特征,设计一种利用论文作者姓名和署名单位进行作者自动识别的方法。基于中国海洋大学2012-2016年发表的SCI论文数据进行实验和结果分析,针对作者识别过程中出现的作者重名问题,利用字符串模糊匹配和作者间合著关系对识别方法进行改进,再通过实验对比改进前后的作者识别结果,评估改进方法。实验结果表明,改进方法取得了比较理想的效果,达到了更高的识别精度。

关键词:作者识别;重名消歧;合著关系;模糊匹配

DOIDOI:10.11907/rjdk.w173297

中图分类号:TP301

文献标识码:A 文章编号文章编号:1672-7800(2018)008-0057-04

英文摘要Abstract:Author recognition in the statistics of papers indexed by SCI is done in the mannual way and in order to solve the problem of heavy and error-prone work in the process of manual author identification,we analyzed the document characteristics of papers indexed by SCI and designed a method which uses the authors' names and institutions to recognize authors automatically.Based on the SCI papers published by Ocean University of China from 2012 to 2016,we carried out the experiment and analyzed the results.Because the homonym problem that different persons share the same name occurred in the course of automatic author identification,the string fuzzy matching and author's co-authorship networks were applied to improve the recognition method.This study evaluates the improved method by comparing the results before and after improvement by experiment.The experimental results show that the improved method achieves better results and higher accuracy rate.

英文關键词Key Words:author recognition;name disambiguation;co-authorship network;fuzzy matching

0 引言

近年来,我国高校越来越重视师生和科研人员学术论文被SCI收录的情况[1-3],同时也积极推进各自机构知识库等学术成果管理系统的建设和实践[4-5]。目前,科研管理机构在对SCI论文信息进行收集和统计的过程中,通常采用两种方式:由作者自行提交论文信息,科研管理部门审核后汇总;由科研管理部门收集整理论文信息,交由作者确认后汇总。但是,科研管理部门在进行SCI论文统计时,对论文作者的识别很大程度上依赖人工逐一判断确认,工作量大、工作枯燥且容易出错。尤其中文作者拼音写法具有多样性,易出现重名、引发混淆,从而导致科研管理部门获取了大批SCI论文数据却无法快速、准确地找出论文实际作者的问题。因此,设计一种能够自动识别论文作者的方法显得尤为重要。

作者身份识别技术广泛应用于文学作品、网络评论的作者身份鉴别,近年来成为国内外学者研究和关注的热点[6-8]。可以采用以作者为标志的文本分类算法实现作者身份识别,即从文本中提取代表作者风格的识别特征,在评估不同文本风格特征相似度的基础上,综合各项特征参数比较结果,识别作者身份[9]。目前采用此种方法进行作者身份识别的研究较多。如郭舒[10]选择文献信息中的文献标题、合作者和出版物名称作为特征集合,进行文本聚类实现作者身份消歧。另一种解决作者身份识别问题的方法采用文献特征中作者姓名和署名单位等信息,与已有的作者信息匹配进行作者识别。刘巍等[11]通过采集作者的别名、所在机构以及任职时间等数据信息,根据从知识作品中提取的作者署名、机构名称、发表年限等信息进行匹配,但在识别过程中没有处理作者重名的情况;于健等[12]设计的SCI论文作者甄别软件利用作者单位的地址字段提取该机构作者,并根据作者全、简称字段与机构人员名单中的全、简称形式完成作者匹配,对于存在重名现象的作者采用作者自己输入自定义唯一关键词或合作者的方法实现识别区分。

针对科研管理系统在统计论文时存在的问题,本文在深入分析和挖掘论文文献信息的基础上,初步设计一种利用文献中作者姓名和署名单位等信息进行作者识别的方法,并通过实验对方法的有效性进行评估。对于在作者识别过程中发现的作者署名单位标注不规范和因署名方式相同导致作者重名的问题,提出利用字符串模糊匹配方法和基于合著关系的作者消歧方法对程序加以改进,达到了94.82%的查准率。

1 论文作者自动识别方法初步设计

1.1 论文作者身份识别流程

论文作者身份识别的关键问题是通过提取论文文献中作者姓名和所属单位名称等信息,与已有的作者信息进行匹配来识别作者身份。

论文作者身份识别过程主要分为两个阶段:预处理阶段和识别作者阶段,如图1所示。

(1) 预处理阶段。从论文文献信息中提取待识别作者的元数据,包括作者姓名、所在单位、论文发表时间等信息,提取信息所需字段及说明,如表1所示。

(2)识别作者阶段。根据提取的待识别信息,包括作者姓名、所在单位、论文发表时间,与数据库中已有的专家姓名、所在部门、任职时间等信息进行匹配,查找候选作者。待识别作者的查找流程如图2所示。

在预处理阶段需要提取作者的姓名和所在单位,能否准确提取这两种信息直接影响作者识别的准确率。

1.2 作者姓名与所属单位提取方法

1.2.1 作者姓名提取方法

SCI论文的中文作者的姓名写法具有多样性[13],可能是姓氏在前名字在后,也可能是名字在前姓氏在后,同时名字还有可能是缩写形式,比如“Song HuiQiao”、“HuiQiao Song”、“Song H.Q.”等。但数据库中存储的专家姓名格式为姓名拼音全称、姓名拼音简写(姓氏全拼+逗号+名字所有单字首字母),因此为了后续姓名匹配方便,需要在提取论文作者姓名的过程中将作者姓名按数据库中相应的格式规范化。作者姓名提取方法如图3所示。

1.2.2 作者单位提取方法

作者单位信息是论文作者署名的必要组成部分,在文献检索、信息传递等方面起到了重要作用[14]。SCI论文中作者署名单位信息通常包括单位名称、所在地名称、邮政编码、省份名称、国别。在单位名称中,作者通常会标注自己所在部门。因此对于本单位的下属部门,可以整理其常见的名称写法,根据这些部门名称在作者署名单位信息中进行匹配。如果该部门名称出现在作者的署名单位信息里,则提取为该作者的所属单位。

1.3 实验评估

本文选取中国海洋大学2012-2016年发表的SCI论文,共7 381篇作为测试数据,通过与人工识别数据进行比较,计算论文作者识别的查准率、查全率和F1值,分析该论文作者识别方法的有效性。全部论文的作者总人数为39 173人,使用本方法进行作者识别后,正确识别的作者38 143人,未找到的校内作者有1 030人,与实际作者重名但未分辨出的作者4 592人。经过计算,论文作者识别的查准率为89.25%,查全率为97.37%,F1值为9314%。

对实验结果进行分析,得出以下结论:

(1) 论文作者识别的查全率主要依赖于人员单位信息的准确性,数据库中人员信息缺失导致部分校内作者未找到。对于人员信息缺失而导致未找到的校内作者,添加该作者的人员信息后即可识别该作者。

(2)识别结果中存在的作者重名现象影响查准率。由于作者姓名拼写形式相同,导致识别结果存在不少重名作者的现象。而且部分作者在标注自己的署名单位时存在不规范的情况,使用的单位名称不是常用名称或者拼写错误。这样采用字符串精确匹配无法提取作者署名单位,从而只能在全校范围内查找该作者,增加了作者重名数量。因此下一步需要针对这两个问题改进作者识别方法。

2 论文作者自动识别方法后续改进

2.1 基于模糊匹配的作者单位提取方法

由于论文文献信息中作者单位标注不够统一和规范,同一个单位或部门往往有几种不同的标注形式,因此提取作者所属单位信息时,适合采用粗粒度的模糊匹配算法。

从实验结果来看,采用模糊匹配算法对作者单位提取方法进行改进后,重名作者数量减少,作者查准率提高,主要原因在于利用模糊匹配方法提取作者所在单位后,缩小了作者查找范圍,降低了重名现象发生的概率。

2.2 基于合著关系的重名作者消歧

合作者关系是众多文献特征元素中最具辨识度的特征元素之一[16],因此可以利用作者间的合著关系消歧重名作者。作者合著网络是以作者为节点、以作者间合著关系为链接而形成的网络。利用合著关系进行消歧的基本思路是:通过合著关系构建作者的关联网络,然后计算重名作者的合著者集合与论文作者集合的Jaccard相似度[17-18],来消歧重名作者。基于合著关系的重名作者消歧方法如图4所示。

利用中国海洋大学历年人工标注作者姓名的SCI论文数据,采用上述方法挖掘、构建作者合著网络。在使用模糊匹配方法对程序改进的基础上,利用作者合著关系对重名作者进行消歧后,实验对比结果如表3所示。

从实验结果来看,采用作者合著关系进行消歧后,重名作者数量减少了一半,达到了94.82%的查准率。

3 结语

本文设计了一种通过作者姓名和所在单位实现SCI论文作者自动识别的方法。针对识别过程中重名作者较多的问题,提出利用模糊匹配方法和作者合著关系对程序进行改进,效果比较理想,可提高科研论文管理效率。这种方法也可直接应用于与WOS文献数据字段格式相同的其它数据库,同时其设计思想也适用于EI等其它数据库。

目前,对于论文作者识别结果的确认和重名作者的处理,还没有一个完善的人工干预系统。因此在下一步的工作中可以考虑加入论文认领服务机制,以实现作者和论文的准确关联。

参考文献:

[1] 魏晓,刘洋.东北大学2006—2015年SCI论文统计分析[J].图书情报导刊,2016,1(12):138-142.

[2] 杜春芳.SCIE收录科技论文统计分析——以河南科技大学为例[J].内蒙古科技与经济,2016(10):60-62.

[3] 周环,苏莉娜.基于Web of Science的河北大学科研论文统计分析[J].科技情报开发与经济,2015,25(1):130-133.

[4] 朱立禄,宋世俊,王琳.国内外机构知识库建设现状及建议[J].现代情报,2017,37(3):109-115.

[5] 姚晓霞,聂华,顾立平,等.我国教育科研机构知识库建设现状调查与分析[J].现代图书情报技术,2014,30(5):1-9.

[6] 祁瑞华,霍跃红,胡润波.文本作者身份识别研究综述[J].图书情报工作,2015(16):143-148.

[7] GAMON M.Linguistic correlates of style:authorship classification with deep linguistic analysis features[C].International Conference on Computational Linguistics,2004:611.

[8] FAN M,QIAN T,CHEN L,et al.Authorship attribution with very few labeled data:a co-training approach[C]Macau:International Conference on Web-Age Information Managemen,2014.

[9] 李晓军,刘怀亮,杜坤.一种基于复杂网络模型的作者身份识别方法[J].图书情报工作,2015,59(18):102-107.

[10] 郭舒.文献数据库中作者名消歧算法研究[J].现代图书情报技术,2013,29(7):69-74.

[11] 刘巍,祝忠明,张旺强,等.机构知识库中作者标识与作品认领机制的研究与实现[J].现代图书情报技术,2014,30(3):8-13.

[12] 于健,吴霞,赵春梅.SCI论文作者甄别软件设计及应用[J].现代图书情报技术,2014,30(4):78-84.

[13] 姚戈,王淑华.科技期刊著者姓名规范控制及身份识别分析和探讨[J].中国科技期刊研究,2015,26(1):41-46.

[14] 王万红.科技期刊作者单位英文信息的标注分析[J].中国科技期刊研究,2010,21(5):721-723.

[15] 何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389-394.

[16] 朱云霞.中文文献题录数据作者重名消解问题研究[J].图书情报工作,2014,58(23):143-148.

[17] 王娅茜.基于节点相似度的网络社团挖掘研究[D].成都:电子科技大学,2015.

[18] 姜雅文,賈彩燕,于剑.基于节点相似度的网络社团检测算法研究[J].计算机科学,2011,38(7):185-189.

(责任编辑:江 艳)