APP下载

基于知识图谱的亲属关系构建实践

2022-04-24刘辰昀储昭武

现代计算机 2022年4期
关键词:图谱本体实体

刘辰昀,储昭武,夏 娟

(1.上海市大数据中心,上海 200072;2.上海计算机软件技术开发中心,上海 201114)

0 引言

随着现代社会的不断发展,城镇化进程的加速推进,人口流动日趋频繁和随机,以家庭为中心的亲属关系呈现出难以全面掌握、管理及使用的现象。①传统以血缘为纽带的区域亲属关系逐渐向以地域为纽带的跨域亲属关系转变,亲属关系较难在同一地域管理单元内全面反映。②市场经济体制的促进作用,具有近亲属关系的自然人分布在多个户籍或多个地域中,从户籍关系较难反映家庭成员的亲属关系。③由于行政职能部门的业务协同和数据共享难等问题,法律认定的部分亲属关系数据分散在多个职能部门中,尚未形成有效汇聚和融合处理,无法从数据层面直观反映动态变化的亲属关系。鉴于此,本文将聚焦“一网通办”政务服务的智能和高效,梳理涉及亲属关系业务事项办理的痛点、堵点,以及亲属关系证明的使用场景,整理分析高频亲属关系类型和数据构成,提出一种亲属关系知识图谱的构建方法和路径,为支撑政务服务水平和效能的提升,提供具有可复制性、可行性的解决路径。

1 亲属关系图谱实践目标

1.1 聚焦便捷、绿色的政务服务能力提升

随着政务服务的改革深化,各行政职能部门围绕政府职能转变、政务服务体系变革和服务能力提升,从业务流程优化、业务协同能力提升、数据共享共建等方面持续建设,但由于人口流动大、户籍关系跨域性等因素影响,证明“我妈是我妈”“我爸只有我一个儿子”等亲属关系证明情况仍屡见不鲜。经统计,在超过一百余项政务服务事项需要提供亲属关系证明材料,且无法通过简单的跨部门、跨层级、跨地域的数据共享实现,在自然人办理政务事项时造成了不同程度的困扰。为了有效减少办事材料及证明、简化办事流程、增加办事效率,切实落实“让数据多跑路,群众少跑腿”“进一网、进一门,能通办”的发展愿,亲属关系证明减免的工作是提高政务服务效能的突破点之一。

1.2 聚焦精准、高效的社会治理能力提升

自然人的数据来源繁杂、管理主体多元,在面向自然人以及家庭的社会管理和服务过程中,真实可信的亲属关系数据是社会治理精准、高效实施的重要支撑。如在疫情防控工作中,以家庭为基本管理单元的活动中,自然人的家庭成员情况、亲属情况等信息,能够帮助疫情工作人员及时、高效的定位防控对象,达到事半功倍的效果;在困难家庭帮扶、贫困家庭认定等民政相关的精准帮扶管理中,真实、有效的亲属关系能够帮助管理者前瞻性、主动式的发现对象,提升群众的幸福感和获得感,增强政府的公信力;在防范管理特殊群体过程中,通过亲属关系的发掘,针对性地进行指导和亲属关系介入影响,能够更有效的实现社会安定。因此,亲属关系数据是社会治理的重要支撑,亲属关系的构建是赋能社区治理更加智能、更加精准、更加高效的有效路径之一。

1.3 聚焦高价值、高权威的公共数据资产建设

由于政府部门行政职能的分工和职权的区隔,自然人的各类数据孤立、分散、无序的存储现状仍然显著,基于自然人的数据共享广度、深度和效度都还相对有限,难以形成较为全局视角的自然人数据地图和精准的自然人数据资产,随着社会多样化、多变性、时效性的需求不断产生,迫切需要充分提升数据的应用深度和应用效度,增强数据共享的力度,加速释放数据价值。利用知识图谱技术,构建亲属关系图谱,能高效融合分散、无序的自然人数据,促进政务数据的高效共享和创新应用,是形成全面、统一、权威、真实、可靠的自然人数据资产的可行路径之一。

2 亲属关系图谱体系框架

知识图谱是一种大规模的语义网络,通过描述物理世界的实体及实体间的关系形成结构化的语义知识库。从原始的数据到构建形成知识图谱,主要历经知识建模、知识抽取、知识融合、知识加工和质量评估等步骤。通过数据的融合实现信息的表达,并积累、扩展实现知识的转化,用于高效搜索、精准表达物理世界实体之间的关系以及实体的基本属性。

亲属关系图谱遵循知识图谱的构建方法,采用语言学的语义场分析手段,从大量自然人数据中提取实体、属性和关系信息,聚合亲属关系信息,并结合相关法律法规文件,补充关系类型,从而实现亲属关系知识的快速响应和推理。由于自然人数据主要来源于政府各行政职能部门采集的数据,具有单类数据结构良好、来源权威、质量可控但数据关联度低、业务语义不规范等特点,因此,亲属关系知识图谱的构建工作重点将围绕自然人数据向亲属关系信息的提取和向亲属关系知识库的转化两个维度展开,以自然人这一实体对象为核心,加强关系抽取、关系推理等任务,将多来源、多语义的实体属性和关系数据有效融合加工,形成能准确、全面、清晰表达的亲属关系图谱,构建框架包括数据准备、图谱构建和谱图服务(如图1所示)。

图1 亲属关系图谱构建框架

3 亲属关系数据准备

知识图谱的逻辑架构,通常划分为数据层和模式层两个层次。模式层是知识图谱的核心,主要通过本体库来存放实体、关系和属性等信息,数据层是相对应的真实数据存储层。在构建亲属关系图谱之前,首先借助物理世界的法律法规明确各类亲属关系,以指导亲属关系图谱的本体模型的构建,再结合本体模型,梳理各实体所需的数据资源,夯实知识图谱所需的各类图谱要素基础。

3.1 亲属关系分析

通过《民法典》可知,核心的亲属关系有:①血缘关系,此类亲属关系的主要特征具有强可推理性,例如父亲的父亲可推理为爷爷。②法律认定的婚姻关系,此类关系具有条件依赖性,随着婚姻关系的状态变化而变化。③由血缘关系和婚姻关系衍生的其他亲属关系,此类亲属关系兼具推理性和条件依赖性。④法律认定的监护关系、收养关系等,此类法律认定关系具有期限性、可变性等特点。通过对这四类的亲属关系的梳理组成亲属关系核心语义场,将分析其他各类关系的语义场所包含的亲属关系,最后合并成亲属关系总语义场(表1),以指导本体模型的构建。

表1 亲属关系总语义场

3.2 亲属数据探查

基于政府行政部门的业务范围和职权分工,构建亲属关系知识图谱所需的数据资源主要存储于公安、卫健委、民政、法院、教育等业务部门,由于各部门的信息化建设能力和数据治理能力的差异,数据业务含义、数据的质量状况、数据的共享情况都有较大差异。结合公共数据治理和应用的实践,梳理涉及亲属关系的数据主要有以下几类:

3.2.1 自然人基础数据

自然人的基础数据主要来源于公安部门的实有人口数据,此类数据具有全面、权威、更新及时等特性,是本体模型中各类实体的数据底数。

3.2.2 血缘关系数据

目前权威的血缘数据来源主要有两类。第一类是卫健委的出生医学证明数据,用于确定父母子女关系,由于社会发展的阶段不同,此类数据存在的主要问题是不能覆盖中老龄人口的出生和生育信息,需其它数据进行补充。第二类是公安部门的户籍数据,用于确定以房屋为单元的亲属关系,由于公安部门的权威性和安全性,此类数据通常质量较好,但随着城镇化发展的演进以及商品化住房的涌现,会存在父母、子女分户的情况以及非直系亲属关系的情况,亲属关系较为分散和复杂。通过以上两类数据交互补充及验证,能建立起基础父母子女关系和亲属关系,结合社会常识进行推理,可形成相对完整的以血缘为纽带的亲属关系。

3.2.3 婚姻关系数据

婚姻关系数据来源主要有两类。第一类是民政部门的结婚登记、离婚登记和死亡证明数据等,第二类是由法院执行的婚姻判决数据。通过以上两类数据交互补充及验证,能建立起由婚姻为纽带形成的亲属关系。

3.2.4 法律认定的其它关系数据

法律认定的其它关系数据主要是指民政部门的收养类数据、法院的抚养判决和监护判决以及亲属关系公证等数据,能建立起由法律规定为依据的亲属关系。

除上所述来源数据外,还会采用教育部门、公共服务部门等在履行职责过程中沉淀的数据,进行亲属关系的交互验证和补充。

4 亲属关系图谱构建路径

4.1 技术架构

亲属关系图谱构建在技术和工具选择以适用为原则,技术架构分为知识存储层、知识加工层两层(如图2所示)。

图2 技术架构

知识存储层分为输入区、管理区、图谱区三个存储区。输入区主要存储各行政职能部分提供的涉及自然人信息的源数据资源;管理区主要存储问题数据、模型数据、规则数据等知识图谱构建过程中的管理数据;图谱区存储以图数据库存储经过融合、加工的自然人实体、关系和属性等图谱结果数据,用于对外提供智能搜索、关系分析等服务。

知识加工层分为本体模型管理、实体抽取、关系抽取和关系推理四个功能模块。实体抽取模块包括映射管理、属性抽取等;关系抽取模块包括抽取规则、关系抽取、关系融合等;关系推理包括推理规则、推理引擎、推理任务等。

4.2 本体模型

亲属关系图谱中模型层的实体对象只有自然人一类,自然人实体对象的属性主要包括姓名、身份证号、性别、民族、出生日期等关键信息项,自然人实体关系包含上文所列各类亲属关系。遵循RDF 标准,构建自然人本体模型如图3所示。

图3 自然人本体模型

4.3 知识加工

亲属关系图谱的知识加工任务主要基于自然人本体模型的实体基础数据,结合亲属关系语义场,通过实体抽取、关系抽取、关系推理加工融合,形成“实体—关系—实体”三元组以及实体与其属性、关系的网状知识结构,加工过程如图4所示。

图4 知识加工过程

实体抽取是指从输入区的源数据集中通过映射方式进行实体数据识别,并通过映射规则或逻辑计算的方式获取实体属性等结构化数据,得到一系列离散的自然人实体、属性、性值,形成本体库实体对象及其属性知识图谱元素。

关系抽取指根据核心亲属关系规则,通过映射规则获取自然人实体之间的核心亲属关系数据,并采取必要的人工校验或逻辑计算的方式进行知识融合、合并和补充,形成本体库实体对象核心亲属关系知识图谱元素。

关系推理指基于社会常识构建的特定亲属关系推理规则,在核心亲属关系知识基础上,通过知识推理规则,补充和校验自然人实体之间的其他亲属关系数据,并进行知识融合、合并和补充,形成本体库实体对象其他亲属关系图谱元素。

4.3.1 实体抽取

实体抽取分为实体识别、属性抽取两个步骤。采用自然人身份证号作为实体指称项,通过映射方式对自然人基础数据集进行实体识别,并将每个身份证号映射为一个实体,再从各自然人基础数据集通过属性映射规则或逻辑计算等方式抽取出各个实体属性值,自然人基础数据集的关键属性为{姓名、身份证号、性别、民族、出生日期}。实体抽取的结果按照自然人本体模型规范,以RDF 三元组方式表示为{实体,属性,性值},实体为自然人实体指称,属性为实体数据的属性名,性值为对应的属性值,形成自然人基础知识本体库,示例如表2所示。

表2 实体抽取结果示例

4.3.2 关系抽取

关系抽取采用给定的核心亲属关系规则映射或逻辑计算的方式,以信息不丢失、不失真为原则,对多个含有亲属关系的数据集抽取自然人实体之间的亲属关系实例,关系抽取步骤如图5所示。

图5 关系抽取模式

根据3.1 节亲属关系分析的核心亲属关系,结合3.2 节的亲属关系探查结果,归纳整理可抽取的核心亲属关系及其对应数据集、抽取技术如表3所示。

表3 核心亲属关系及其对应数据集

对于抽取到的关系实例,主要采取以下几种方式进行关系实例选择,确定最终保留的关系实例结果。一是对抽取的关系实例数据通过人工校验的方式进行融合和合并,获取最终的可靠、可信的核心亲属关系知识。二是基于职能部门的业务实际,按照时序、可信度及其它业务逻辑规则等计算规则,对抽取的关系实例数据进行知识融合和合并,获取最终的权威、最新状态的核心亲属关系知识。三是对少量不完整的核心亲属关系实例,综合参考教育、公共服务、社会事务等其他来源数据集,综合权重计算进行核心亲属关系知识补充。

关系抽取的结果最终按照自然人本体模型规范,以RDF三元组方式表示为{实体1,关系,实体2},主语为自然人实体指称(身份证号),谓词为关系名称,宾语为对应关系自然人实体指称,形成自然人核心亲属关系知识本体库,示例如表4所示。

表4 核心亲属关系RDF三元组

4.3.3 关系推理

关系推理主要基于抽取任务建立的核心亲属关系RDF 三元组,结合社会常识构建特定关系推理规则,进行知识推理补全其它亲属关系,以保障亲属关系图谱在场景应用过程中的支撑效度和响应速度。其中可通过知识推理补全的其他亲属关系主要包括隔代的关系,以及由婚姻关系产生的继父母子女关系等。考虑到数据存储量及不同关系使用的概率,本文的其他亲属关系补全只考虑使用概率较高的三代亲属关系补全规则(如表5),其它关系推理规则可参考重新定义,并根据需要添加及动态计算。

表5 三代亲属关系推理规则

5 实践成果

基于本文所描述的亲属关系图谱构建方法和构建路径,结合公共数据治理和应用的实践,最终形成了三项实践成果,为政务服务体系变革和政务服务能力提升提供了全新路径,为公共数据价值的加速释放提供了可行路径。

5.1 自然人本体模型构建

基于RDF 标准构建的自然人本体模型,具备了良好的扩展性,为后续持续构建以自然人为实体的相关业务知识图谱打下了实体图谱元素基础,同时,标准化的本体模型结构,能满足和其它知识图谱的本体层进行知识融合的需要。

5.2 图谱构建方法及支撑架构

经过实践检验的谱图构建方法及系统架构,为基于公共数据的政务服务和城市治理能力提升及创新应用,提供了可复用的相关领域知识图谱构建方法和构建路径,如企业图谱、房屋图谱、城市部件图谱等,为公共数据的由数据向信息的表达和向知识的转化提供理论参考和实践支撑,极大提升政府职能部门的数据整合力度和知识转化效能。

5.3 亲属关系知识图谱

构建完成了区域内基于核心亲属关系的三代亲属关系知识图谱,该图谱具备动态更新、增量补充的构建能力,能满足公安、民政、法院等多个职能部门,涉及档案、医疗、救助、教育等多项业务场景的亲属关系检索查询及定位判别需求,能满足材料免交的政务服务发展要求,极大提升了区域内的政务服务的效能,极大增强了群众的获得感和满意度。图6为亲属关系知识图谱实践成果示例展示。

图6 亲属关系图谱示例

6 结语

自然人作为政府最重要的服务和管理对象,围绕其属性、特征、关系等各类数据资源的管理和应用具有非常重要的现实价值及实践意义。亲属关系知识图谱作为承载自然人之间相互联系的重要信息载体,高效、高速、高质地实现公共数据的价值化能,是公共数据价值释放的创新应用路径,但伴随相关法律法规的变更以及自然人成长状态的变化,未来亲属关系图谱还应从以下几个方面持续建设和升级发展。

6.1 探索跨领域亲属关系图谱融合

各职能部门可根据自身的业务发展需求,构建以自然人为实体对象的领域性知识图谱。例如公安以调查为目的建立的自然人社会关系类、民政以救助为目的建立的自然人近亲属关系类、法院以财产分割为目的建立的自然人受益人关系类等,通过各领域亲属关系的融合、合并、补充和校正,构建体系化、完善化、全局化的区域亲属关系知识图谱。

6.2 探索跨地域亲属关系图谱共享

由于城镇化发展的必然趋势和人口加速流动的社会现实,在确保数据安全可靠的前提下,亲属关系知识图谱也需从构建机制、管理体制上创新和变革,通过跨地域的亲属关系图谱共建共享,提升政务服务跨省通办的能力和效能,构建全面化、完备化、共享化的跨区域亲属关系知识图谱。

6.3 探索创新的亲属关系图谱应用场景

政府数字化转型的发展初期,涉及治理、生活、经济三个方面的转型都离不开围绕自然人、法人的高质量、高效能的数据积累及知识应用。积极探索基于亲属关系图谱的应用场景,加速释放数据向知识转化的价值,能够为社会治理、群众生活和经济发展提供更加丰富的数字化转型场景,全面支撑城市高质量的转型发展。

猜你喜欢

图谱本体实体
“植物界大熊猫”完整基因组图谱首次发布
基于ColBert-EL 和MRC 模型的零样本实体链接
精武门的武术图谱与徐悲鸿
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
眼睛是“本体”
实体钱
图表
2017实体经济领军者
一种新型水平移动式折叠手术床
Care about the virtue moral education