面向精准政务服务的自然人全息画像
2021-11-20陈钢佘祥荣秦加奇水新莹
陈钢 佘祥荣 秦加奇 水新莹
(中国科学技术大学智慧城市研究院(芜湖) 安徽省芜湖市 241000)
1 引言
政府在城市治理的过程中积累了海量业务数据,但部门与部门之间存在十分严重的“数据烟囱”现象,无法实现基于“数据智能”的“多元协同”工作模式[1]。以城市自然人数据为例,它是城市大数据体系中最基本且最重要的数据资源,但通常分散在人社、民政、公安等不同的政府部门,这些数据在不同部门之间的协调和共享存在机制上的不足。为打通政府部门之间的数据壁垒,一些省市依托大数据管理部门或大数据中心完成了政务数据资源整合并实现了共享和交换,为“互联网+政务服务”奠定了良好的基础。
“互联网+政务服务”要求政府部门主动转向“服务范式”,为公众提供精准化和个性化的服务。用户画像,就是根据人口统计学信息、社会关系信息、消费偏好等静态和动态信息抽象出来的一系列标签化组合。用户画像的核心是利用大数据技术对目标群体打上各种标签并在此基础上进行定性和定量分析统计,进而达到对目标群体精准刻画的目的。在电商领域,用户画像技术被广泛用于精准营销并取得了良好的效果[2]。在政务服务领域,基于所汇聚的政务大数据构造全生命周期、全维度的自然人画像,能够在此基础上洞察公众的潜在需求进而提供主动化、精准化和个性化的服务。为实现上述目标,本文提出了一种基于全息数据模型的自然人全息画像技术。
2 全息数据模型
2.1 概念和作用
“自然人全息数据”是指自然人从生到死全这个生命周期过程中所产生的全部信息。一些省市的政务服务网也将个人办事按照自然人全生命周期来分类,例如北京市政务服务网按照“升学、工作、购房、结婚、生育、失业、创业、迁居、退休、后事”等阶段划分自然人全生命周期。就政务服务领域而言,它是指政府各业务部门在服务个人全生命周期办事过程中所使用和产生的数据集合[3]。如果能够将这些信息资源进行归纳和抽象,形成不同层面、不同维度和不同视角的业务模型大宽表,以此构建自然人全息画像框架,用来描述、预测和展现该自然人过去、现在和将来的时间和空间状态和属性变化。基于此,政府部门有望实现全面分析、感知和识别服务对象的目标,为公众提供精准化政务服务提供手段。
2.2 形成方法
从业务角度看,自然人全息数据模型的形成可以通过对自然人各“生命阶段”的相关属性及状态进行深入地分析,在此基础上梳理每项涉人办事业务在自然人全生命周期中的直接或间接逻辑关系,然后将附属于自然人各个生命阶段的结果数据实施有机整合。这就实现了把自然人从出生到去世这一历史变化过程中产生的全部数据进行有机整合,所形成的结果数据集可以称之为“全息数据”。就实现方法来说,可以从政府部门现有的信息系统入手,先收集所有与部门核心业务相关的原始系统数据,获取业务的基本情况,根据这些系统数据再倒推它们各自所属的业务事项,获取业务的输入输出数据,最终完成信息资源的梳理。具体实现路径是:
(1)根据政府各部门“三定”方案明确部门的职能域,初步确定其主要的业务类型;
(2)根据政务服务事项清单对涉人业务事项进行业务流程分析,得到相应的事项结果名称,该名称可以作为数据目录;
(3)对于服务事项申请材料中有“空白表格”或“示例样表”的,识别并抽取该表格中的核心数据项;对于没有“空白表格”或“示例样表”的,则根据相应的国家标准或者该事项的设定依据提取核心数据项。从技术角度说:
(1)采用Glove模型、word2vec模型、Bert模型[4]训练生成词向量,计算对应文本词向量的相似度,进行权力清单与政务服务清单的匹配;
(2)在获取政务服务网上涉人事项数据的基础上利用自然人语言处理文本或语义相似度算法,对所获取的业务事项进行融合,并形成对应的事项名称集合;
(3)将所获取的办事事项非结构化文档或图片文件中的信息利用OCR技术自动识别出来形成核心数据项;
(4)借助知识图谱技术对这些事项数据进行融合处理,分别对应到自然人不同生命周期阶段中形成全息数据模型。
2.3 实践做法
基于上述业务理念和技术手段,本文根据国家行政学院电子政务研究中心2019年4月发布的《2019省级政府和重点城市网上政务服务能力调查评估报告》[5],选取了政府服务能力水平“非常高”(评分≥90)的6个省份和7个重点城市,以此作为自然人全息数据模型形成的来源依据。在最终所形成的全息模型中,包含目录名称、依据标准、数据项和来源部门等信息。该模型对自然人划分了12个人生阶段,包含185个人生事件,涉及的核心数据项约为13000个。在获得全息数据模型后,需要按照一定的方式对这些数据加以组织。一般而言,人有组织、人有地址、人有物、人和人之间存在关系、组织有地址、事件有地址、事件涉及人和物。因此,可以按照“人、地、物、事、组织”这五大维度对全息数据加以分类,并将分类后的数据以(实体-关系-实体)和(实体-属性-属性值)三元组形式存储。在组织好自然人全息数据后,下一步就需要基于它们来生成各种标签,包括基础标签和业务标签。基于这些标签,可以运用标签组合来构建面向不同政务服务领域的自然人全息画像,以此来洞察该自然人现在的业务需求和未来的业务需求。
3 全息画像
3.1 精准政务服务理念
“全息画像”是构建基于全息数据框架、多维度的自然人画像,旨在刻画和揭示自然人全生命周期历程中各个阶段和维度的时间和空间属性及其状态变化。全息画像的优点是能够提供一个多层次、多视角、可全面剖析自然人的“综合档案袋”。在政务服务实践中,通过剖析某类人群的全息画像,能够了解他们当前和潜在的服务需求,有针对性地将供给侧精准匹配到需求侧,进而实现由“人找服务”到“服务找人”的模式转变。从技术视角看,全息画像依托大数据和人工智能技术,以静态属性数据和动态行为数据为基础,综合运用统计分析、数据挖掘和机器学习相关算法对结构化数据和非结构化数据进行分析处理,形成一系列标签并进行动态可视化展示,实现了对自然人在赛博空间中“特征全貌”的抽象和刻画。有了全息画像,政府部门就能够利用所积累的涉人历史业务数据对组成各个标签的业务模型所涉及到的数据项做趋势分析,预测出未来一段时间内自然人某项/某些指标状态的变化及其潜在所需要的服务。为了通过全息画像剖析自然人全生命周期属性状态,需要构建对自然人进行抽象描述的概念模型,从中抽取反映状态变化的数据项来对人群进行打标签并实现分类。
3.2 全息画像概念模型
概念模型具有语义表达能力较强、简单清晰且易于理解等特点,能够直接表达业务领域相关知识[6]。自然人全息画像概念模型是对自然人统计人口属性、社会关系和涉事经历进行描述的模型,是对自然人真实状态和行为的刻画,是影响全息画像结果的关键所在。因此,构建科学合理的自然人全息画像概念模型应遵循全面性、可行性和智能性的原则。基于上述构建原则,本文从基本属性、事件属性和关系属性这3个方面构建自然人全息画像概念模型。将与自然人自身密切相关而且在全生命周期中相对不变的信息纳入到基本属性中,它通常具有稳定性和标识性,通常在政府业务部门之间有共享需求。例如身份号码、姓名、性别、年龄、民族、出生日期、婚姻状况等数据项是大多数政务服务都需要使用的。另外还有一些数据项是通过政务服务网中的涉人事件获取的,反映自然人在生命周期过程中参与的各类业务事件或活动,它们是与特定业务部门密切相关的(如参保事件产生了社会保险信息、住房公积金账户开设事件产生了住房公积金信息、学籍办理事件产生了教育信息等),可以将这些数据归入事件属性中。关系属性主要反映自然人在婚姻、居住、学习、工作等活动中与人、地和物所建立的各种关系等。关系属性主要包括“人-人关系”(如亲属、同事、同学、邻居等)、“人-物关系”(如拥有房产、汽车等)和“人-地关系”(如出生地、住所等)。这种概念模型不但非常容易理解,而且还与知识图谱(即全息数据模型分类后以三元组形式存储在知识图谱中)相吻合。
3.3 标签生成方法
与概念模型相比,标签体系更加形象和具体,获取相应的数据后可以直接进行可视化分析。常用的标签生成方法有“直接提取法”、“统计分析法”和“机器学习法”。
3.3.1 直接提取法
一般情况下,事实类标签可以采用直接提取法。有些数据自身就是对自然人属性的描述(即自身就是标签化的数据),因此不必再去定义标签,可直接对他们进行标签提取。举例来说,在自然人基本属性数据集中,有些数据项的数据类型是分类型或者标识型,可以基于数据项名称提取标签。例如姓名、身份证号这样的数据项没有必要去分类,其作用是对自然人个体进行标识,就可以直接将它们作为标签使用。此外,还有一些直接类别类数据,如性别、学历、婚姻状况等也可以直接作为标签使用。在事件属性数据集中,有些事件的名称较长,可以对事件名称进行转换,在保持语义不变的情况下将长名称转换为以短词语形式为主、事件名称更为精简的标签。例如“取得出版专业技术人员中级职业资格”可以转化为“出版专业(中级)”。可见,直接提取标签不需要进行任何计算,而是直接保留或缩减了原始数据。
3.3.2 统计分析法
统计分析法主要应用于在基于数据计算的标签提取场景。从自然人全息数据出发,借助不同的统计分析方法,计算某一数据项或标签的统计量。对单时点数据计算平均值、最小值、最大值等,对时间序列数据分析增长率或降低率等,并对计算之后所形成结果的突出特征进行提取。统计类标签是需要根据原始数据进行聚合计算的一类标签,例如年度纳税总额、交通处罚次数、工作年限等。
3.3.4 机器学习法
预测类标签是指无法通过事实数据计算得到,需要借助机器学习算法进行预测的标签,例如房屋购买能力、信用变化趋势等。该类标签的构建核心在于利用聚类、分类和集成学习算法对自然人全息数据进行建模分析,通过全方位、深层次地分析自然人三大属性维度数据,提取各个维度的标签,可以挖掘更多的潜在信息,进而对自然人的未来趋势进行预测分析。举例来说,可以构建基于“人、地、事、物和组织”的自然人知识图谱,可以从人-人关系出发,在知识图谱中引入外部信息,实现在原始标签的基础上扩展出新的标签。例如可以通过人-人关系属性和刑事案件属性运用关联算法扩展出“与涉黑人员有关”这一标签。
3.4 全息画像构建
构建好标签后,就可以组合这些标签构建自然人全息画像了。对单个自然人而言,其个体全息画像主要包括自然人基本属性、事件属性和关系属性。基本属性所包含的信息为姓名、身份证件类型、身份证件号码、性别、年龄、民族、籍贯、婚姻状况、出生日期、出生地、政治面貌、最高文化程度、职业、联系方式等。事件属性主要反映自然人涉及事件情况,包括奖取得证照类事件、获得奖励类事件、遭受处罚类事件、涉及民事案和刑事案事件等。关系属性主要反映自然人亲属、邻居、同事、同学、同小区、所属学校、所属企业、拥有房产、拥有机动车、拥有发明专利等。为了对单个自然人有一个整体概貌认知,可以用标签云的形式进行画像展示,这些标签就是用上述三种标签提取方法对自然人基本属性、事件属性和关系属性中的数据进行分析处理。此外,还可以采用列表和图谱形式对三大属性进行详细展示。
在个体画像的基础上还可以构造群体画像。举例来说,构造一个某市中产阶级人群画像,可以定义标签中产阶级:= {净资产大于等于300万元或年收入大于等于30万元},这样就能够先筛选出中产阶级人群。然后通过性别、年龄、学历、职业等标签进行进一步分类,就可以洞察该市中产阶级人群在不同维度的详细分布情况。对人群进行分类画像,可以快速判定自然人所属人群,精准定位此该自然人当前和未来所需服务。可见,全息画像是政府满足公众个性化信息服务需求的重要抓手,在提升服务信息推送精准度的基础上,切实提高了用户服务体验。