基于柔性治理和知识图谱的科技政务云平台建设方法研究
2022-02-20李光恒万锦辉蒙立东
李光恒,万锦辉,何 挺,黄 群,蒙立东,董 喆
(广西产研院 人工智能与大数据应用研究所有限公司,广西 南宁 530000)
1 问题缘起
党的十九大以来,我国政府持续推进“互联网 + 政务服务”建设,依靠新一代信息技术推动政务治理模式创新,在推动“互联网+政务”的实践过程中,采取了“重组”的策略进行智慧政务服务的业务再造,但由于管理过程中出现大量的层级协调工作,实质上存在着数字技术工具化,底层仍由科层制驱动的问题[1]。电子政务对政府职能管理体系提出了重构性的诉求和整体性改革的需求,政府职能管理应与电子政务建设衔接起来协调推进[2]。以科技管理部门为例,目前国内科技管理部门多用不同的管理系统实现对各种科技政务和业务的管理,造成政务资源和数据相互阻隔,难以实现政务数据资源有效管理与高效应用。部分科技管理部门建设统一政务数据平台,只适配已有的科技政务管理,对不断发展的科技政务数据资源和科技业务管理无法很好地适应和纳入统一管理,只能大幅修改已有系统或推翻重建。从技术层面看,主要有以下关键问题需要解决。
1.1 科技政务系统平台缺乏迭代弹性的问题
现有科技政务系统平台在系统构架扩展性、定制性(弹性)方面存在缺陷,使得系统难以修改和扩展,难以快速响应用户/业务部门对功能的修改和功能扩展需求,缺少敏捷应对政务业务变化的技术框架模型。
1.2 科技数据管理中的数据烟囱和数据孤岛问题
现有科技信息管理系统存在各部门数据共享及业务互通性差的问题,一是系统开发者对科技业务不熟悉,缺乏对各部门业务和数据的统一梳理。二是各系统在数据格式和标准上的不一致,导致互通和共享有困难。三是现有系统在技术构架上没有一套能适应各种来源数据共享和互通方面的机制,对新的子系统的增加不能很好地融合。
1.3 科技数据质量欠佳情况下的大数据分析问题
随着信息技术的发展和人民生活水平的提高,“互联网+政务服务”要求科技管理政管理由粗放式向精细化转换,推进数据共享,打通信息孤岛成为数据建设的指导思想理念,这对科技政务数据治理的实时性和协同性提出了更高要求。而由于历史原因,现有的科技政务系统在数据治理、工作协同等方面困难重重,效率低下,久而久之造成数据不准确、不完整、可用性低等问题。由于数据治理欠佳,影响了大数据分析的准确性,从而无法为科技管理改革、政策制定、社会服务提供有力的支撑[3]。
本文提出基于柔性治理和知识图谱的技术手段,利用柔性治理的理念和先进技术,构架一个既能够兼容已有政务数据资源和业务管理的体系,又能基于柔性治理容纳未来新增的科技政务数据资源和科技业务,同时深入研究知识图谱模型和大数据分析模型在科技政务数据资源中的应用,真正使科技政务数据为科技管理决策服务。
2 基于柔性治理的可拓展流程模型设计
柔性治理中的“柔性”是对“刚性”而言的,传统意义上的柔性多用于定义生产制造型企业的生产方式,是以“制造系统响应内外环境变化的能力”建设为核心的生产方式与方法论。随着市场竞争的日益激烈,生产型企业需要依托低成本快速反应的制造方法满足市场需求的多样化和不确定性,柔性的含义主要包含3个层面:能力的柔性、容量的柔性和系统适应内部变化的柔性。
柔性治理的理念从生产制造术语移植到政策话语表达最早出现在2019年的政府工作报告中的“新型城镇化要处处体现以人为核心,提高柔性化治理、精细化服务水平,让城市更加宜居,更具包容和人文关怀”。可见,新时代的柔性治理在保留了原始理念的情况下更多地面向公共服务的应用,围绕复杂的政府职能体系,从外部环境、公众需求,内部治理需要、政治要求等角度,开展多元参与、协同共治、快捷反应的机制优化,借助新一代信息技术,进而实现职能之间的协同化和政府治理的整体性。
为了敏捷应对政务业务变化,本文提出采用柔性治理技术框架,采用微服务和松耦合技术,提高系统的定制能力、可扩展性和运行性能,迁移柔性生产的3个层面柔性流程管理、柔性数据管理、柔性功能定制的理念,从科技政务系统的定制化流程、定制化模块和数据治理3个方面进行柔性治理改造。
一是柔性能力,指生产水平的快速调节能力,或迅速转移产品生产到另一种产品上的能力。在政务管理中,体现为柔性流程管理,基于知识抽取后的流程模板,对流程管理功能进行快速定制和开发,迅速调整生成各类流程模块。二是柔性容量,指按需调节生产的产量的能力。在政务管理中,体现为柔性数据管理,通过建立适应各种业务数据的数据结构、数据存储形态和数据交换标准及接口,实现数据交换和共享的问题,可以按需分配数据资源和使用权限。三是系统适应内部变化的柔性,指系统在遇到扰动的情况下能够快速恢复运行的能力,在政务管理中,体现为柔性功能定制,基于参数配置与脚本自定义框架,在需要对系统模块进行调整时,快速实现功能的修改和自定义配置。
实现柔性治理三大内容的核心在于对现有业务流程进行优化与改造,本文设计了一种基于柔性治理的可拓展流程模型(如图1),该模型以业务流程引擎为中心,主要逻辑包括以下层面:第一,通过对现有的科技政务应用系统进行分析,将流程应用数据接入业务流程引擎,从业务流程引擎中抽象出流程资源模型、流程应用数据和功能配置参数,形成知识积累型的技术引擎,可基于参数配置和脚本自定义框架,快捷配置业务流程的相关业务模板、应用程序及系统环境数据。第二,从业务流程引擎中抽象出组织/角色模型和过程/功能模板,负责管理与配置组织、角色、用户的权限,满足流程模块化定制需求。第三,在数据管理层面,为了提升数据的柔性程度,对业务数据进行解耦分离,形成过程数据和知识数据分离的数据存储和管理构架,将数据接入知识图谱引擎中。第四,知识图谱引擎的工作流由信息抽取、实体关系消歧、知识融合、知识加工等步骤组成,在知识图谱引擎中,将建设知识仓库、知识管理及规则管理3个部分。第五,为了解决数据流的问题,在对公用数据和专用数据进行分类的基础上,建立各种业务数据的数据结构、数据存储形态和数据交换标准及接口,解决数据交换和共享问题[4]。
图1 基于柔性治理的可拓展流程模型
3 基于知识图谱的科技政务知识管理系统构建
由于科技政策文本数量日趋庞大,语义关系日渐繁杂,将知识图谱技术用于科技政策领域,以实现政策主体、政策属性与关系的结构化和显性化越来越重要[5]。本文提出的知识图谱是适用于科技政务管理领域的政务知识图谱,其核心是为业务流程的柔性需求提供快捷的知识响应服务,解决数据共享及业务互通性差的问题。本文基于知识图谱构建了一个面向业务流程的知识管理系统模型,主要由数据资源层、代理层和业务层组成(如图2)。
图2 基于知识图谱的科技政务知识管理系统模型
数据资源层主要担任知识存储仓库的角色,在数据资源层包含了数据解耦模块,进入数据仓库的数据在数据资源层已经完成了业务流程数据的一次解耦分离,为知识图谱的构建提供原始数据来源。
代理层是系统的核心部分,也是系统的功能服务层,代理层通过信息抽取、关系消歧、知识融合与知识加工等步骤,完成了科技知识图谱的创建。在知识图谱构建完成后,代理层还承担了知识管理的任务,为了更好地服务业务流程定义,本模型将知识需求获取功能单独提取出来,作为衔接代理层和业务流程层,对接业务流程和知识图谱的一个接口而存在[6]。
业务流程层是主要用于实现业务流程的柔性开发。为保证知识可以满足业务流程的需要,系统首先必须能够识别在业务流程的某一环节需要什么样的知识,在本模型中,主要包括知识数据、配置参数、知识模型3类知识,分别对应柔性数据管理、柔性功能定制、柔性模块构建的开发,代理层为业务流程层的知识应用提供了柔性化开发、自动化生成的服务。
至此,本模型主要由5个模块组成:在数据资源层,包括数据解耦模块;在代理层,包括知识图谱构建模块和知识管理模块;在业务流程层,包括知识需求获取模块,业务流程定义模块。该模型各模块之间存在丰富的自主交互,能够基于知识图谱,对外界的任务输入做出一定的判断和推理,降低了数据协同、系统迭代的难度。
4 基于机器学习的科技数据质量优化方法
科技大数据分析为科技部门评价与决策提供量化支撑。与传统的基于专家系统的评价与决策带有主观经验不同,科技大数据分析通过基于数据驱动的机器学习方法来量化评价与决策。如果数据足够多且质量好,则这种基于数据驱动的机器学习方法量化评价与决策比较客观。但是,如果数据没有那么完美,如何结合专家系统与基于数据驱动的机器学习方法是关键技术问题。
在知识图谱构建过程中,信息抽取是最关键步骤,信息抽取需要利用大规模数据集对模型进行训练,而大规模数据集的人工标注成本昂贵,为了解决此问题,可以使用无监督、半监督的抽取方法代替有监督的方法,通过先聚类后标注的方法,降低标注难度,或者构建生成式的模型,构造先验条件后再训练模型,减少数据标注成本、降低信息抽取对标注的依赖。
在机器学习算法层面,采用基于机器学习的自然语言处理(NLP)遗忘算法可以实现数据的精准鉴别。遗忘算法是以牛顿冷却公式模拟遗忘为基础、用于自然语言处理(NLP)的机器无监督学习算法体系,与主流算法相比,具有占有资源少、性能快的优势。遗忘算法不仅可广泛应用于批量文本智能分析领域,而且可以应用于图片分类识别、图像识别等领域,遗忘算法的语言无关特性,使得其应用语境理论上无限制,可以支持各种语言,其核心技术主要包括以下几点:①基于大规模文本的词库自动生成技术;②文本结构化处理技术;③分词权重计算技术;④实时热词发现技术。基于强大的自然语义分析处理核心技术,突破 NLP 分析瓶颈的遗忘算法,结合多源非结构化数据对算法进行训练,然后对科技项目进行精准对比分析,能够快速地命中并识别出检测文件与比对源中的相似内容,也不会造成过度检测,从而在从监测技术的运用和精准度以及多语言支持上都实现了对质量不佳的科技数据的优化。
5 基于柔性治理和知识图谱的科技政务云数据平台框架
上文基于可拓展流程和知识管理系统两个技术模型之间的业务逻辑交互组成了科技政务云数据平台的平台服务层,基于机器学习的自然语言处理(NLP)遗忘算法对科技政务数据进行了质量优化,最终要实现的目标是建设高水平科技政务数据治理和应用系统,其技术框架如下。
Iaas层提供充足的计算、存储和网络能力。同时依托电子政务内网、外网、互联网和教育网等已有的资源共享平台,实现跨区域、跨行业、跨部门、跨层级的数据采集和交换。
Paas 层构建以Hadoop作为基础支撑的大数据基础服务(Daas)。集成应用可变流程、知识图谱、数据融合、机器学习等技术,实现一站式数据资源的采集、存储、管理、计算、分析、服务等功能,为上层各类业务系统和大数据分析提供高可用性、高体验度、高安全性的数据服务能力。
Saas 层通过业务融合和互联互通相结合,对科技系统内部分散、割裂、标准不一的新旧系统和历史数据库进行大规模整合、推倒和统一重建,为开展科技数据共享和大数据应用扫清障碍打下牢固基础。
6 结论与展望
基于建设高水平科技政务数据治理和应用系统的目标,本文研究科技政务数据治理的关键技术,包括柔性治理技术框架、知识图谱模型及科技数据治理优化方法,在此基础上设计了基于柔性治理与知识图谱的科技政务数据治理云平台,能够有效整合各个科技业务系统和科技数据,利用柔性治理技术,实现科技业务融合,解决了有一个新业务就要新建一个系统,造成新的数据孤岛的根本性问题,同时知识图谱模型和大数据分析模型在科技领域的应用,能够利用云平台聚集的大量科技政务数据资源,完成科技数据可视化和多维科技数据分析,为科技决策提供辅助参考,创造了一个利于协同、方便共享、积极分享、无界交流的科技政务发展环境。