一种基于中文姓氏规律的学者筛选分析方法研究
2020-05-25昝栋
昝栋
摘 要 人才队伍建设作为高校工作的永恒主题,在科研教学、学科发展等诸多方面发挥着至关重要的作用。本文从人才引进的角度入手,设计了一种基于“百家姓”姓氏筛选方法,可用于学者信息的数据处理和分析。
关键词 人才分析;中文姓氏;学科建设
1 高校人才队伍建设的重要性
2015年我国提出了加快建成一批世界一流大学和一流学科的长远目标,在高校开展的实践和探索过程中,高层次人才的引进不但带来了崭新的思维方式,为学校的师资队伍注入了新的活力,也成为高校人力资源引进的重点工作方向[1]。
2 高校人才引进工作的现状
人才引进工作必须与学校教学科研需求相适应,目前高校在人才的引进仍面临着一些困难:
一是在信息发布方式,人事部门通过网络、现场招聘等渠道发布需求信息。这种方式消息发布周期短、关注度低,在获取备选人员方面存在很大的局限性。
二是在学科匹配度方面,虽然人事部门会与用人院系进行沟通,在人员研究方向上提出建议或推荐人选,但人事部门对学科领域内的人才分布总体情况缺乏掌握,难以保证选拔工作的科学性。
图书馆作为高校的信息资源服务中心,基于电子资源的深层次服务,开展了通过情报服务提升自身核心竞争力的探索实践[2],可将事实数据与情报分析方法进行有机结合,切实为学校的教学科研、学科建设提供多元化的信息参考。如果将图书馆现有学科服务与情报分析的工作经验应用到人才引进的数据分析领域,将有效的緩解现有高校在人才引进工作方面面临的困境,为学科人才的遴选与引进提供好的信息参考和借鉴。
3 基于中文姓氏规律的学科人才分析方法介绍
3.1 学科人才选拔的需求分析
各个学校在人才选拔方面都有自己的特殊要求,需兼顾国籍、年龄、研究领域、学术成就等多方面因素,特别是目前国内高校的人才引进多以华人学者为主。开展具体工作时,可针对学校人才选拔条件,以学科领域的专业期刊为基础,结合地域分布、合作机构等信息,对华人科研人员的数据进行整理分析,综合学者的论文产出及规范化影响力等多种因素进行人才综合评价[3],为本校学科人才引进提供情报参考。
3.2 中文姓氏作者筛选方法的比较
以往开展的人才分析,在对中文姓氏的作者甄别方面,往往采用人工择取的方式,数据整理周期长、效率低。在整理WOS平台导出的学者字段时,通过在国家或地区字段选择China Mainland,也可以较为便利的将绝大多数的中文作者信息筛选出来,但是这种方法对于论文信息中没有标注机构名称或国家地区等字段信息缺失的学者往往会被忽略掉;同时对于在海外发展的华人科学家的信息无法进行有效的甄别,因此,如何快速地将华人作者的信息从检索结果中快速筛选出来是在开展人才分析时,是一个需要重点解决的问题。
本项目利用我国传统《百家姓》中的姓氏,进行音序转化,同时结合 InCites 平台收录数据中,作者姓名信息的录入规律,进行姓氏分离,通过姓氏音节的对比,实现了中文姓氏科研人员的数据筛选工作。
3.3 百家姓筛选方法介绍
该方法以中国传统蒙学读物《百家姓》中收录的中国姓氏为基础,在此基础上通过对比样本库,差异化增补的方式,形成了中文特征姓氏的对比基础数据集。百家姓中原收集姓氏411个,后增补到504个,其中单姓444个,复姓60个,另外通过样本增补的方式补充部分姓氏,最后达到了接近330个不同音序姓氏的基础数据集。将该数据集以姓氏音序转化为拼音后,作为源数据集备用。
Wos平台中中文作者的表达形式存在着一定的规律,即姓氏在前,名字在后,中间用逗号分隔,例如:李明表述为Li,Ming;也有部分名字后半部分仅保留了首字母的缩写,例如:王玲玲,翻译为Wang,LL。但是总体而言,姓氏部分的音节保存相对完整,基本符合汉语拼音的拼读规则。利用这一特征,可以和华人以外的姓名进行快速的区分。
3.4 方法使用效果验证
笔者对2014-2018年5年间JCR中Fisheries学科Q1和Q2区发表Article和Review论文的学者进行筛选,符合条件的作者共计8034人。直接按照国家地区进行筛选,得到中国地区作者为2009人。通过百家姓筛选法对8034位学者进行筛选,符合中文姓氏规律的作者2528人,其中包含大陆地区以外542人,同时在中国地区内的作者有23人并不符合中文形式规律,应该属于在大陆工作的外籍学者。
通过上述方法对比可以看出,“百家姓”筛选的方法可以更加有效的解决中文姓氏规律学者的筛选问题,比通过国家地区的方法效率更高,准确性也更胜一筹。尤其在针对中国大陆地区以外的其他国家地区的华裔学者开展分析时,通过该方法可以快速将具有中文姓氏特征的学者筛选出来,从而快速进入身份信息梳理工作环节。
4 结束语
本文介绍的“百家姓”音序数据集可不断进行增补和完善,以提升数据筛选的准确性,该方法主要用于对学者信息的初步筛选,可快速分离出符合中文姓氏规律的学者信息,有效缩小初选数据集规模,提升筛选的工作效率,以便在此基础上顺利开展学者研究领域判别和身份信息梳理等深层次的分析工作。
参考文献
[1] 许日华,乐传永.“双一流”建设中地方高水平大学高层次人才引进的困境与突围[J]. 教育发展研究,2017,37(21):46-51.
[2] 杨新涯,王莹,尹伟宏.数据驱动的新型情报服务研究[J].文献与数据学报,2019,1(1):32-41,117.
[3] 庞弘燊,王超,胡正银.“双一流”大学建设中人才引进评价指标库及指标体系构建[J].情报杂志,2019,38(3):67-74.