知识图谱驱动下干部人事档案服务方式创新
2021-11-11周娟娟李泽锋
周娟娟 李泽锋
摘?要:对干部人事档案服务工作中存在问题进行深入分析,发现传统干部人事档案服务和利用方式已无法满足当前需求。为此,构建符合干部人事档案特征的知识图谱,驱动干部人事档案服务方式向知识决策服务转变,进一步创新干部人事档案服务方式,为领导班子配备和选用提供科学依据。
关键词:干部人事档案;知识图谱;服务方式
分类号:G273
Innovation of Cadre Personnel Archives Service Mode Driven by Knowledge Graph
Zhou Juanjuan, Li Zefeng(Zhengzhou University of Aeronautics Information Management College, Zhengzhou, Henan 450052)
Abstract:By analyzing the research status of cadre personnel archives, it is found that the traditional way of using cadre personnel archives can not meet the current demand. Based on this, building the knowledge atlas in line with the characteristics of cadres personnel archives could drive the service mode of cadre personnel archives change to knowledge decision service, which further innovates the service mode of cadre personnel archives, in order to assist leaders in scientific decision making and improve the efficiency of leading group staffing.
Keywords:Cadre Personnel Archives; Knowledge Graph; Service Mode
1?引言
知识化服务作为信息服务的发展与延伸,更加注重以需求为导向。借助先进的管理系统,干部人事档案知识化服务可实现预判、辅助决策等作用,正越来越受到关注。然而,受数字化进程、语义分析成熟度和数据挖掘能力等因素的影响,当前干部人事档案管理系统功能较为单一,未能提供有效的知识化服务,检索有效性和服务效果不佳[1]。因此,利用知识图谱对干部人事档案信息进行深度挖掘、语义重组,并建立数据关联,能够实现档案知识化服务,以此创新干部人事档案服务方式。
2?干部人事档案服务中存在的问题
干部人事档案是有关部门在组织建设和干部人事管理中以及人才的管理服务中形成,可反映干部政治思想、学习经历与专业素养等情况的材料[2]。因与其他类型档案相比具有一定的特殊性,所以其档案服务对象也具有特殊性。通过研读近年来关于干部人事档案服务相关文献并调研组织部门干部人事服务情况后发现,干部人事档案服务工作仍存在一些问题,主要表现在以下三个方面。
2.1?服务目的有待转变
一方面,主动服务理念不强,不利于档案数据信息综合分析、预测等环节工作的开展,继而影响档案资源的进一步开发利用。另一方面,服务主体的服务目的不明确,最终导致其收集的干部人事档案无法全面展示人才的各种特征,难以为领导决策、组织机构发展等提供有效的参考。
2.2?服务效率和效果不理想
档案信息管理质量和信息实时性是影响干部选任和提拔的关键因素。但当前,人事单位往往未能意识到这一点,在进行人员岗位调整、提拔工作时,常常由于信息掌握不全面、沟通交流不通畅、资料获取不及时等原因致使相关人事工作出现不规范现象,造成不良社会影响[3]。与此同时,随着档案数字化转型,人事档案管理部门无法将大量非结构化数据快速转化,也未能关注档案数据的关联性,导致在开展人才选拔等工作时无法及时提供有效信息供相关部门参考,影响了档案服务主体利用效率,也违背了以用户需求为导向的服务宗旨。
2.3?服务形式单一
受网络技术应用和相关人员专业程度的限制,目前干部档案服务方式普遍较为简单。且人事档案管理系统功能不完善,越来越无法满足利用主体需求,主要体现在:自身语料库、知识库建设能力有限[4];智能检索技术应用较少,且未同数据挖掘、数据关联、语义理解与知识发现等技术相结合,梳理出“个人数据链”[5]等。上述问题造成干部人事档案管理系统功能过于简单,无法为用户提供个性化与智能化服务。
3?干部人事档案数据可视化与决策服务
目前,干部人事档案管理系统中,多采用关键词检索方式来查询个人信息,可视化技术应用还不成熟,无法形成有效决策服务方案。知识图谱技术有助于提高数据分析、知识分类以及知识检索能力,完善原有干部档案管理系统检索功能,并可通过实体消歧、实体校对等流程进行知识融合,实现干部个人信息的完整记录存储与智能检索、适用人员推荐与辅助决策等功能。系统建设路径如图1所示。
3.1?数据获取层
干部人事档案所包含主体元数据有干部姓名、出生年月、政治面貌、最高学历、学位、职务、职位、学术成果及考核情况等重要信息。元数据集与数据集组成语义转换的重要数据源[6],通过语义匹配和本体构建,可将档案数据转换成关联数据。随着干部人事档案数字化加工技术的不断发展,档案数据种类与数量越来越多,其中的结构化数据可直接应用,但半、非结构化数据则需要借助一定的方法和手段转化为可被机器识读的数据,才能对其进一步加工。这些档案数据是描述干部个人特征的最有价值的数据,可将其划分为履历数据、学历数据、考核數据、任免数据、奖惩数据和政审数据等类型,形成完整的个人数据链(如图2),为主题、人物、时间、地点等语义内容信息抽取奠定基础。
3.2?知识加工层
为提高档案资源的关联度,满足精确检索与统计等需求,需要对结构化和非结构化数据进行细粒度加工处理。干部档案的深层次揭示主要包括对档案信息进行实体抽取、属性揭示与关系描述,借助语义设计组织知识逻辑和物理结构识别到内容层,从而实现干部档案价值增值和主体需求的满足。对于档案实体抽取,本文将采用基于规则的档案实体识别方法[7]和实体词性关系抽取法。
3.2.1实体识别
本文以基于实体词性的档案关系抽取为方法,以提高关系抽取的正确率。将命名实体抽象成命名实体的词性,用实体的词性来替代实体本身。例如人物和任职经历或奖项的关系,可用实体的词性来替代实体本身,通过对词性的充分利用来提高关系抽取的正确率。将数据进行词性替换预处理之后,再用深度学习方法对关系属性特征进行学习,最后完成实体关系抽取。抽取实体构成可按主题划分,采取与干部人事档案分类标准相趋同的数据集方案,分为履历数据、学历数据、考核数据、任免数据、奖惩数据和政审数据等类型进行实体与词性标注。以某高校所有处级干部档案为例,先按类别对数据进行实体词性判别,例如,履历数据中任职信息以“某人在某地曾任某职务”等模式定位词性;学历数据中项目信息以“某年,某项目、类型、状态、成果”等模式编排,均可按词性划分,具体见表1。其中,用n表示名词,c代表连词,v代表动词,a代表形容词,tn代表时间名词等。如以<时间名词-行为动词-专有名词>为结构模板,分别用<-tn>、<-v>、<-zn>等进行表示。
以表1为标准建立词性规则,以此类推其他类型实体词性,抽取实体特征数据,将实体映射到数据库表字段中,提高实体识别过程效率。
3.2.2 关系抽取
依存句法分析的档案关系抽取是通过在语料中进行分词、词性标注预处理之后提取出语料句法关系,并基于句法关系对实体之间的关联关系特征进行学习的过程。句法结构关系包括核心(KEB)、主谓关系(SBV)、定语结构(ATT)、动宾关系(VOB)、并列关系(COO)等,如表2所示。
通过将句子成分映射到知识图谱三元组中,从而实现关系抽取。例如,经过对语料的依存句法分析发现,若没有并列关系,则句子应该包含核心关系(KEB)、主谓关系(SBV)、动宾关系(VOB)三种关系才能进行有效的关系抽取。利用OCR扫描技术获得文本内容后分析句子成分,如“某干部某年申请国家某项目”例子中,属于“某干部”(人员实体)和“基金项目”(主题实体)之间的关系。名词短语识别结果为“某人 申请 某项目”,句子结构类型属于〈主语,核心动词,宾语名词短语+宾语名词〉,语义依存关系如图3所示,抽取的关系为〈某干部,申请,[某类型]某项目名〉。
在图3中,带有方向的弧线代表依赖顺序,即箭头终点词语依赖箭头起点词语;弧线上的标签文字代表依赖类型,矩形块表示变化识别的结果。依存句法分析结果中指明了每一个词组的依存类型与其前序依存对象,可從这些分析结果中提取实体关系的特征数据。通过识别数据预处理示例可以看出,原文经过预处理手段进行分词和词性标注的格式,为本体构建与知识表示打下基础,尽可能清晰地描述出实体与实体之间的关系。
3.2.3 属性抽取
属性抽取一般是抽取较为基础的属性信息,根据履历类实际数据需求,从各类型元数据集中,抽取用户所需要的信息。通过属性抽取可以更准确地对抽取实体进行揭示。总的来说,干部人事档案知识图谱中实体属性抽取,可分为两种:一种是实体所对应的概念所具有的属性,只需要抽取其属性值即可;一种是没有所属的属性,需要抽取其属性和属性值。针对第一种情况,模式层中的关系包括对属性间属性关系抽取,即属性与属性值范围的界定等信息,因此,在数据层中可以复用模式层部分数据概念与值域。
3.3?语义关联层
3.3.1 本体构建
RDF以 XML 语法为基础,由资源、属性、属性值构成的三元组描述资源[7]。构建档案学领域本体,为不同知识库与系统之间的数据与知识的利用提供接口,增加知识的复用[8]。根据干部人事档案数据类型自身结构特点进行不同规则实体抽取、关系抽取和属性描述,为本体构建提供消歧实体及知识清洗,以此构建档案本体架构。
3.3.2语义信息关联
由于干部档案的特殊型,选取较易获得的个人基本信息与科研成果等作为研究切入点进行探究。将抽取实体的关系进行梳理,整体关系描述如表3所示,包含某干部个人基本信息、工作信息以及科研成果等方面的数据,清楚呈现工作单位、性别、年龄、学历学位、职称、曾任职务和项目等实体之间的关联关系。进一步加快干部知识图谱构建,用图谱形式清晰展现个人特征信息。
借助知识图谱可视化技术,构建描述干部自身特征的本体模型,包含干部履历、学历学术、鉴定考核与任免等数据,利用规则和词性进行关系分析和抽取,将抽取实体进行语义关系描述,构建出“某干部知识图谱”,如图4所示,可采用图知识库进行存储。其他类别信息同样可按上述方式操作,这里不再具体展示。
3.4?知识服务层
由于人事档案类别之间存在较大差异,因此,知识抽取获得的数据会存在一定差异,知识的语义表达会受到影响,需要进行如下处理。知识融合包含模式层和数据层,模式层阶段构建要注意概念、概念上下位和概念属性的统一,避免属性概念有歧义,以便于对实体包含的信息进行融合和聚类;数据层针对不同来源数据进行实体对齐与消歧,如在履历类中会出现个人成果,包括科研成果和参与实践活动所获得奖励成果等,而第四大类中也含有科研学术材料,此时就应注意是否表征同一实体,进行自动实体对齐和知识融合,构建干部人事档案专用词典,提升知识融合效果。除不同数据源造成的档案资源中实体间相互冲突或者实体指向不明等问题,为便于计算机的理解与计算,可以消除冗余數据,进一步精简并形成高质量科研档案知识图谱。以档案资源与知识的融合为根基,提炼干部个人基本信息、科研成果、奖励、会议等有价值信息,为决策人员提供可靠、智能的经验与知识储备方案,增强与各知识库之间的知识融合[9],真正实现智能推荐与知识服务的目标(整体流程如图5)。
多个环节之间要保持紧密沟通与对接,保证异构数据库的实时更新和维护,从而保障干部人事档案信息完整和真实有效,为人才管理与干部选任等工作提供知识决策服务。
注释与参考文献
[1]魏扣,李子林,金畅.社交媒体环境下档案知识聚合服务实现架构研究[J].档案学通讯,2018(6):61-66.
[2]中共中央办公厅.干部人事档案工作条例[S],2018-11-28.
[3]林丽.为人社事业高质量发展服务——建湖县人社部门档案管理实践探索[J].档案与建设,2021(03):63-64+67.
[4]欧阳慧芳.名人档案知识管理应用研究——以华南理工大学为例[J].档案与建设,2018(02):40-42,39.
[5]戴玲,彭长根.基于大数据的干部人事档案审核与监管机制[J].档案与建设,2017(06):31-34,90.
[6]?Sebastian?Rozenberg.Digital? records?as?relational?objects-Yuk?Huis? concept?of?digital?objects?applied?to?archival? science[J].?Achival?Science,Vol:21? No.2,2021:193-218.
[7]刘峤,李杨,段宏,等.知识图谱构建技术综述[J].计算机研究与发展,2016,53(03):582-600.
[8]王应解,吕元智,聂璐.档案学领域本体的构建初探[J].档案学研究,2015(06):19-25.
[9]唐晓波,郑杜,高和璇.基于三层知识融合的金融领域信用知识服务模型构建[J].情报科学,2021,39(08):12-20.