科学论文作者身份唯一标识符研究
2014-09-22张学梅
[摘要] 科学论文作者姓名存在同名同姓、姓名书写方式缺乏统一、姓名随时间及环境发生改变等情况,从而对信息检索、引文分析、学术评价等工作造成影响。本文认为应为科学论文作者编制永久性的身份唯一标识符,作为在各种不同环境下判定作者身份的依据和解决以上问题的方法,并提出一种编制规则以供参考。
[关键词] 作者;姓名;唯一标识符
[中图分类号]G25[文献标志码]A[文章编号]1005-6041(2014)04-0001-01
1引言
科学论文作者是科学研究活动中最活跃的因素,无论是文献检索或是使用发文量、被引量、H指数等方法在微观层面上对作者进行测评,还是利用各种方法在宏观层面上进行大范围学术评价、探讨学科结构和科学发展趋势等研究,都离不开使用作者姓名为检索点获得相关数据以及对这些数据加以深度分析。早在1998年,Cleveland就曾指出,在数字图书馆环境中,姓名是能够唯一标识数字对象的字符串,是文件元数据的组成部分,姓名对于数字图书馆的重要程度相当于ISBN号对于传统图书馆的重要程度。[1]理想状态下,作者姓名既能识别其具体身份,又能唯一标识其所发表的所有成果,但事实上,由于人名的一些客观特点,使得不能仅利用姓名作为检索点而得到精确结果,从而使得它的这种作用被极大削弱,影响到各种相关工作的顺利进行。
本文重点探讨由于作者姓名因素影响检全率与检准率,从而导致统计数据不精确,影响统计分析结果的形成,最终使得研究结论对现实工作的指导效果大打折扣这一现实。特别是例如使用文献计量学方法在宏观层面上对大范围内的作者进行横向比较分析时,这一问题的严重性更为可观,所以对文献资料从不同角度进行全方位标识就显得尤为重要,有效的标识能增加用户检索入口,提高检全率和检准率以及检索速度,同时对于数据分析人员来说,能帮助他们获得优质来源数据,从而为管理决策提供坚实的数据基础。
]2 需要使用作者姓名的科学研究活动
]2.1 信息检索
当需要阅读某位作者的文献时,使用其姓名为检索点,便可在选定数据库或搜索引擎中获得该作者的全部作品。例如,一位新入学的研究生可以通过在数据库中输入备选导师的姓名,对检出的各导师论文主题、研究方向进行研究,从而选择适合的导师。同样,导师在招收研究生时,也可通过报考学生的姓名为检索点获得的文献资料,对该生情况进行了解,作为是否接收的参考。
]2.2 引文分析
引文分析法是文献计量学领域一种重要研究方法,在引文数据库中输入作者姓名,便可查得其引文数据,作为进一步分析的数据基础。作者论文被引频次在一定程度上能够反映论文质量高低和作者科学影响力大小;作者论文平均引文篇数的分布,能够反映该作者引用文献的广度和深度,还能说明引文与被引文学科内容之间的联系强度;通过对作者引文与被引情况的长期跟踪观察,能够进行科学创造最佳年龄结构的研究、科学家出重大科技成果时的年龄频度分布规律的归纳;通过对引文语种分布的考察和分析,发现某些语种的文献被引用量较大,则说明该语种比较常用和重要,对于人们有计划地引进外文文献、译文选题、外语教育等,颇有参考价值;研究作者群在年龄、地域、学科领域等方面的分布情况、从而能够发现和追踪不同学科的科学前沿、辩明和研究不同领域的热点课题、分析和模仿不同的资金模型。
]2.3 学术评价
由于资源的稀缺性,当需要进行资源分配时,通常借助一些评价指标来辅助决策,评价指标由一系列待评个人或团体的文献数据计算。以作者姓名为检索点,查得某一作者的发文量、被引量等客观指标,或者以这些数据为基础,进一步计算出该作者H指数、G指数等分值,从而对该作者科研能力和科学影响力做一量化测评;使用某一机构科研人员姓名为检索点,查得该机构科研人员相关数据,能够对一定范围内各科研机构的科研水平做成客观公正的评价,从而促进良性竞争,推动科学发展;通过文献计量学方法遴选各学科专业的核心期刊,有助于科学工作者更高效地找到研究工作中所需要的相关参考资料,并为他们的研究成果更广泛地传播提供平台;通过某科技期刊作者姓名的检索获得相关数据,能够遴选该刊核心作者群,从而有助于提高办刊质量;根据使用不同机构、不同地区、不同学科领域、不同专业内作者姓名检索获得的统计结果,能够帮助考察不同主体群之间科学研究生产率差异、从而帮助科研管理机构确定资助重点,使科研资金投入实现最优化,还能够综合评价个人、机构、地区、国家的情报能力,分辨学科特征和背景,估计科学劳动规模,调查科学劳动形态,作为科学管理的工具。
3来自于科学论文作者姓名方面的问题
3.1 著者姓名方面存在的客观问题主要有:
(1) 不同作者姓名相同或相似 当两名或更多名作者同名同姓,或是在以西文发表的论文中,采用较通行的“姓+名的首字母”的署名方式,使得“Jaymie Meliker”与“Jakie Meliker”看似是同一位作者,这时以姓名为检索途径的检索结果便会将实际不同作者的发文量、被引量等数据集中在一起,从而提高该作者分值,并进一步增加其H指数、G指数等数值,使检索结果与实际出现严重偏差。这一现象已经在诸如arXiv (高能物理、大气海洋物理、数学及计算科学领域的开放获取数据库)这类大型数据库测试中得到验证。当仓储容量达到一定级别后,其返回大量相同或相似作者的检索结果将使无耐心的用户望而却步。[2]即便用户能耐心地通过文章的标题或写作风格,甚至是手工打开文章链接来辨别出不同作者,当记录过于庞大时,限于时间、精力、人力等方面的成本也会使工作无法顺利进行。
(2) 同一作者不同拼写方式 这种情况主要出现在以西文书写的论文中,一些作者在不同作品中署名缺乏一致性,最常见的是有全称与缩写的不同书写方式,如某作者在发表论文时可能会采用“Jaymie R. Meliker”,“Jaymie Meliker”或“J. R. Meliker”等各种形式。尽管许多出版机构要求作者采用“姓+名的首字母”作为发表论文时的姓名书写方式,但仍不能完全解决这一问题,而且有时还会加强上述第一种问题的严重性。此外,外国作者姓名翻译成另一国语言时,姓与名的前后顺序、翻译的方式不同都可能造成同一位作者具有不同拼写方式的姓名,从而使相关数据被分散在多个不同位置,结果是检索出来的数值比实际偏小甚至严重降低。
(3)同一作者具有多个不同工作单位或研究领域 对以上两种情况造成的误差,有时可以通过用作者所在工作单位进行组配检索来降低,但现实情况是一位作者很可能由于调动等原因在不同时间属于不同工作单位;或是由于项目合作等原因以不同单位名称来发表论文;即使是仅有一个单位,作者发表论文时有时使用单位全称,有时会加上下一级单位名称(如“清华大学”,“清华大学信息学院”等等);还有一些单位随着时间的发展,在名称上有所变动,这些情况都使得在使用工作单位作为二次检索入口时,不能精确判断作者身份,从而导致记录分散,所以仍不能完全消除错误数据。
(4)同一作者具有不同姓名 在一些国家和地区,婚姻状况或其它状况的变化会导致姓氏的改变,当使用姓名检索其发文量和被引量时,同样会引起数据分散,减小真实分值。只有当一位作者非常著名,检索者了解其姓名变化过程,才可能得到全面数据,但也需要经过逐一查证,而对于大多数普通作者,便几乎无法检索到其实际数据。
上述各种情况的客观存在,不但影响数据库用户信息检索的查全率和查准率,从而影响相关工作的开展,甚至对于数据库公司的工作人员来说,也会造成他们录入数据过程中出现错误,使得数据库本身的数据就不精确。
3.2 对作者姓名问题影响检索结果的随机性检验
当对某一名作者、某一单位或少数科学家进行定量分析时,可以对检索出来的数据进行逐条检查,根据工作单位、年龄、性别、研究领域等特征对错误数据予以删除。但当进行的是宏观层面上的分析时,面对海量数据,如何确保来源数据的正确性?为了验证这一情况,我们在SCI数据库中选择检索词字段为作者,在其它条件不做限定的情况下,输入50位认识或是由于关注而熟悉的科学家姓名,通过对检索结果逐一辨认,发现错误率竟然达到81.46[WTB2]%[WTBZ],尽管这种小范围的试验不足以作为统计学意义上的证据,但这种结果仍令我们不由要问:检索条件涉及到作者的大样本定量分析的工作中,数据的正确率有多少?由此得出的分析结果,对实际工作的指导意义又有多大?
为解决这一问题,目前使用的方法主要包括:
(1)多加限定条件 如将作者姓名与学科领域、工作单位等检索词进行组配检索。有些数据库允许同时输入某位作者曾经工作过的多个单位名称,如CNKI中国引文数据库的“作者统计”功能最多允许同时输入作者的三个工作单位进行组配,但由于其检索方式为精确匹配,即使是多一个字或少一个字也无法检索出结果,例如:以“清华大学”为检索词进行检索时,便无法查出单位为“清华大学图书馆”所发的论文。
(2)建立模型 如使用模块化方法和聚类方法建立一种一体化框架来解决姓名不统一和同名同姓作者问题[3],利用概率知识计算出两种出版物之间距离从而区分同名同姓作者的方法[4],针对引文匹配的K阶频谱聚类方法[5],单一贝叶斯与向量支持混合机器方法[6]等等,这些方法在一定程度上都能缓解这一问题对工作所造成的严重影响,然而每种方法都有其局限性,不能从根本上完全消除错误信息。
4编制科学作者的永久性唯一标识符
面对这些问题,我们自然而然地想到:对于书籍,人们为其编制了ISBN号; 对于期刊,人们为其编制了ISSN号;对于数字资源,为其编制数字对象标识符(DOI),作为数字资源的唯一永久性标识,可以帮助读者容易的获取。借鉴这种思想,我们认为有必要对科学论文作者也分配一个代表其身份的唯一编号,作为其在科学世界中唯一的、永久性的身份识别符。
4.1 作者身份唯一标识符的编制过程
(1)要确定一个国际化的专门机构来负责这种标识符的编制、分配以及管理。由于一部分作者会在国外发表论文,所以这种标识符必须在国际范围内统一使用。
(2)要开发一个用于作者标识符申请和个人信息修改的平台。对于已经发表过论文且身份能被清晰辨认的作者,由相关机构按一定标准为其分配一个身份标识代码;对身份模糊的作者,和其取得联系辩明身份后,分配代码;暂时无法联系的可通过网站通知的方式在将来适当的时机分配代码。对于从未发表过论文的新作者,在首次发表论文之前,应通过该平台为自己申请一个永久性的唯一身份标识符。所有作者需要将相关个人信息提供给专门机构,包括身份证号、出生年月、研究领域、发表过的论文、工作过的单位等等,供机构管理标识符时作为辨别不同作者的基础,当然一些涉及隐私的信息要为作者予以保密。今后任何作者投稿时,都需要向所投刊物提供自己的身份标识符代码。
(3)元数据框架中增加作者唯一身份标识符 所有正式出版的科学期刊、专著、以及各种全文数据库和引文数据库在其元数据体系中添加作者唯一身份标识符。由于标识符具有唯一性,当使用作者姓名途径进行检索时,只要将该标识符作为检索条件,便可轻易检索到精确的数据。当遇到对作者身份不太清楚的情况时,只要对照其唯一身份标识符,在相关机构网站中进行查询,便可知道该位著者的具体个人基本信息。
4.2 作者身份唯一标识符的编制规则
这里提供一种作者身份唯一标识符编制规则作为参考:号码由23个数字组成,前3位是作者申请号码时的国籍代码,第4-11位是作者的出生年月日,第12-19位为作者申请标识符的日期,最后4位为流水号。由于这种代码具有唯一性,可保证对同名同姓或姓名相似作者之间的精确区分;由于其具有永久性,可保证即使某位作者先后供职于不同单位,或曾经使用过多个不同姓名,仍能完整地聚集其相关发表和引用数据。由此消除各种因姓名客观特点而造成的不同作者数据集中或同一作者数据分散的现象,使各种科学计量研究工作能获得更优质更精确的来源数据,从而提高研究结果的精确度。
4.3 可行性分析
科学论文与科学工作者数量均迅速增长的现状说明编制科学论文作者身份唯一标识符的必要性,而数据库技术与信息技术的高速发展为实现这一目标提供了技术保证。为降低技术开发与推广应用的成本,目前较好的一种解决办法是依托于现有的国际大型学术数据库,如WOS、SCOUPUS等等,按上述规则为每一名作者编制一个唯一的身份标识符,并将该标识符纳入检索字段,供用户试用并反复调试,取得一定成效后,再分国家、地区进一步推广,直至该标识符如文献标题、作者姓名、关键词一样,成为一篇文献必不可少的组成部分。
5小结
科学技术是第一生产力,人是人产力中最活跃、最革命的因素,作为科学活动中最活跃因素的科学论文作者,由于各种客观原因,其身份无法在宏观范围内得到确认,这种情况已经严重影响到信息检索的检全率与检准率,同时束缚着包括科学计量学、文献计量学相关研究的开展以及这些研究结果对实际工作的指导效果,由此得知,为科学论文作者编制唯一的身份标识符已成为现实的迫切需要,本文为这种标识符的编制方法提供一种参考,当然一定还存在许多考虑不尽完善之处,但从长远来说,作者唯一标识符的应用能够大大提高信息检索效率和以作者为基准的宏观层面上各种实证研究的精确度,从而提为科研管理机构的政策制定和调整提供有力支持,最终推动科学研究更快更好地发展。
[参考文献]
[1] Gary Cleveland. DIGITAL LIBRARIES: DEFINITIONS, ISSUES AND CHALLENGES[EB/OL]. [2010-1-11]. http://ifla.queenslibrary.org/VI/5/op/udtop8/udt-op8.pdf.
[2] Jingfeng Xia. Personal Name Identification in the Practice of Digital Repositories[J]. Program: Electronic : Library & Information Systems,2006 (3) : 256—267.
[3] Jian Huang, Seyda Ertekin, C.Lee Giles. Efficient Name Disambiguation for Large-Scale Databases[EB/OL].[2010-1-11]. http://ifla.queenslibrary.org/VI/5/op/udtop8/udt-op8.pdf
[4] Jose M. Soler. Separating the Articles of Authors with the Same Name[J]. Scientometrics,2007, 72,( 2):281—290.
[5] Han, H., Zha, H., Giles, C.L. Name disambiguation in author citations using a K-way spectral clustering method[C].// Proceedings of JCDL,2005: 334—343.
[6] Han, H., Giles, C.L., Zha, H., Li, C., Tsioutsiouliklis, K. Two supervised learning approaches for name disambiguation in author citations[C].// Proceedings of Joint Conference on Digital Libraries,2004: 296—305.
[收稿日期][HT5”K]2014-05-09
[作者简介][HT5”K]张学梅(1978—),女,馆员,硕士,苏州市职业大学图书馆工作,研究方向为学术评价。
[说明][HT5”K]苏州市图书馆学会课题项目成果;苏州市职业大学校级课题“基于科学计量学理论与方法的定题服务模型研究”( 编号: 2013SZDCC16)阶段成果。