APP下载

基于多源数据融合的社会治理信息系统设计

2023-07-26朱孝军

电脑知识与技术 2023年16期
关键词:术语文档信息系统

朱孝军

(长三角信息智能创新研究院,安徽 芜湖 241000)

0 引言

党的二十大报告中对社会治理领域进一步提出要求:一是积极发展基层民主,完善基层直接民主制度体系和工作体系;二是完善社会治理体系,构建网格化管理、精细化服务、信息化支撑的社会治理平台,及时把矛盾纠纷事件化解在基层、化解在萌芽状态。

随着社会经济的发展和城市的人口逐渐增多,社会成分复杂,社会多元化矛盾事件此起彼伏。由于社会变革的加剧,利益格局的调整,社会民情的复杂化导致矛盾纠纷有明显增长的趋势,呈现出复杂化、多元化、群体化、疑难化等特征。针对社会基础信息来源复杂、格式不一、社会问题矛盾纠纷事件处置迟缓的现状,设计基于多源异构数据融合的社会治理信息系统,通过信息化手段赋能多元化矛盾化解,整合多源异构数据资源,使社会管理人员及时掌握矛盾事件精准数据,构建社会事件处置体系机制,将矛盾纠纷事件化解在萌芽阶段,防止事件进一步继续扩大,使事件得以及时、便捷、公正、妥善解决,对于社会稳定、经济与社会的协调发展具有重大意义。

1 系统设计

面对社会管理工作中存在的物业投诉居高不下、反馈渠道单一、信访工作压力较大、缺乏完整事件处置机制等诸多问题,社会治理信息系统从社会治理现代化改革出发,以“街乡吹哨、部门报到、投诉即办”社会管理机制为方向,围绕多层级事件处置功能为核心,构建信息化智能化的事件处置机制。

1.1 总体架构

社会治理信息系统总体架构主要分为三个层级,分别是社会数据库、多层级事件处置模块和应用层,如图1所示。

图1 总体架构

社会数据库获取多来源于异构数据,如基层历史数据、社会摄像数据、系统舆情数据和车房登记数据,统一格式后分类存储到对应的专题库中,如社会人口专题库、社会车房专题库、社会事件专题库。存储的相关数据输入上级模块,在多层级事件处置模块中实现事件对接、事件详情、事件受理、事件分派、事件下发、事件处置、事件吹哨、结果反馈等功能,对事件实现及时合理处理。在应用层管理人员能进行人口数据管理、车房数据管理、多层级事件处置,居民则可以通过治理平台或小程序进行问题上报、处置评价和个人中心信息的修改。

1.2 数据架构

社会治理信息系统的数据架构以数据库和数据仓库Starrocks为中心,实现和外部系统的数据交换和数据服务,如图2所示。

图2 数据架构

数据库中包含基础数据、业务过程记录和对外交换的数据库,并统一备份存储在Starrocks 数据仓库中。通过交换库和政务数据共享交换平台进行数据共享交换,通过数据库和社会服务业务切割进行封装业务服务。外部系统通过页面集成实现系统集成,数据库进行数据服务,并且外部业务库的数据能够回流到数据库中,实现数据的增量和沉淀。

1.3 部署架构

社会治理信息系统的部署架构以社会治理平台和社会治理小程序为核心,用户通过客户端以API接口形式获取信息,如图3所示。

图3 部署架构

用户通过手机移动信号或电脑有线信号,通过系统网关请求代理与转发服务,将请求的域名地址通过SSL加密数据交换转发到服务器。应用服务器部署数据接口服务,数据接口服务与业务数据库进行数据交换,把交换的数据通过API 接口形式提供给客户端。Redis 服务器主要提供缓存服务,减少数据库交换次数,从而降低数据库的访问压力。地图服务器提供地图服务,为管理人员和居民提供实时地理信息。

2 多源异构数据融合

社会治理信息系统的数据来源于基层社区历史已有的规范标准信息,如人、房、企、事、物数据;社会面摄像头获取的视频和图片数据;政府系统和本地App 获取的社会舆情数据以及车企和房企登记的车辆和建筑物数据等。这些多源异构数据无法直接获取及时有效的信息,需要通过数据ETL 清理、本体构建和关联分析来进行数据的规整和融合。

2.1 数据ETL清理

后台获取不同来源的数据具有广而杂的问题,结构化、半结构化、无结构化的数据之间存在异构的问题,难以直接从中获取有效的信息。通过数据接口获取源数据之后,首先对其进行ETL 清理。ETL 是Extract-Transform-Load 的缩写,表示将数据从源端经过抽取、交互转换、加载到目标端的过程,ETL的流程如图4所示。

图4 ETL流程

李佳倩等人[1]设计了完善的ETL流程处理大规模的互联网新闻舆情数据,通过结合ETL工具和SQL语句,依据正确性、完整性、一致性、完备性、有效性、时效性和可获取性的原则,通过空值处理、规范化数据格式、拆分数据、验证数据正确性、数据替换等操作,处理重复数据、无效数据、空数据等之后,将不同来源、不同格式的数据转换为统一的格式加载到目标数据库,作为后续数据融合和信息挖掘的基础。

2.2 本体构建

在获取统一格式的数据之后,通过构建本体来挖掘数据准确有效的信息,为后续基层管理人员的决策提供依据。本体的构建方法采取依靠专家手工构建和机器学习算法进行自动构建两种,对社会治理领域普遍术语,采取专家手工构建部分本体进行规范性描述,一般本体采用统计主导的方法挖掘获取。

一般本体构建采用TF-IDF(Term Frequency-Inverse Document Frequency)结合TextRank 算法从数据信息中抽取相关术语。黄春梅等人[2]研究基于词袋模型和TF-IDF 进行短文本分类的流程,TF-IDF 算法中TF和IDF表示“词频”和“逆文档频率”的意思,是用于信息检索和数据挖掘的常用加权技术。

TF-IDF算法首先计算TF:

词频表示一个单词在该文档中出现的频率,count(t)表示文档di中包含词t的个数,count(di)表示文档di的词的总数。然后计算IDF:

逆文档频率表示单词对文档的区分能力,num(database)表示数据库database中文档的总数,num(t)表示数据库中包含词t的文档数目。将每个词的TF 和IDF 相乘,得到每个词的TF-IDF 值,然后根据每个词的TF-IDF 值进行降序排列,根据需求输出指定个数的词作为抽取的相关术语。

TF-IDF 单纯从词频来衡量一个词的重要性不够全面,对于出现并不多但重要的术语无法识别挖掘,而且这种计算无法体现位置信息,因此结合Bordoloi Monali 等人[3]研究的利用TextRank算法提取关键词技术来提高术语挖掘的性能。TextRank 算法是一种基于图的用于关键字抽取和文档摘要的排序方法,利用文档内部词语间的共现信息来抽取关键词,其将文档看作一个词的网络,网络中的连接表示词与词之间的语义关系,其公式如下:

其中,WS(Vi)表示句子i的权重,右侧求和表示每个相邻句子对本句子的贡献程度,ωji为权重项,表示两个句子的相似程度,WS(Vj)是上次迭代出的句子j的权重,d为阻尼系数,一般取0.85,算法上采用Python中的TextRank4zh包进行排序实现。

术语抽取完成之后,使用基于同现的方法,用词的语法同现统计方法来估计词的语义相似性,然后以此为依据,使用聚类算法进行概念聚类,使得相似的术语能够聚类形成一簇。聚类算法采用陈小雪等人[4]提出的优化加权K-means 算法,利用加权的欧式距离来度量术语之间相关性。

对历史数据进行聚类训练后构建模型,完成术语的相关性聚类,得到对应的聚类核心概念。

2.3 关联分析

通过本体构建抽取出相应的术语和概念后,结合居民端上报的问题数据或数据源中实时变化异常数据,基于FP-growth 算法进行关联分析,及时对事件进行分派和处置。

FP-growth 算法和Apriori 算法都是挖掘频繁项集的算法,Apriori 算法需要多次扫描数据集,而无论多少数据,FP-growth只需要扫描两次数据集,算法效率上具有优势。其关联规则基于支持度:Support(X →Y)=P(X ∩ Y)=P(XY)和置信度:Confidence(X → Y)=P(Y| X)的概念进行构建,参考杨彩等人[5]研究的基于FPgrowth算法的课程关联性分析流程进行频繁项集的挖掘。FP-growth 算法步骤主要分为两步:第一步构造FP-tree,扫描数据库,计算数据库中各个项的支持度,若大于给定阈值,作为频繁项集保存,再次扫描数据库,依次读取保存到FP-tree中,重复直到读取所有数据,完成FP-tree 的构造;第二步在FP-tree 中根据创建的条件模式树挖掘频繁模式,从而挖掘出频繁项集。其算法流程图如图5所示。

图5 FP-growth算法流程

在挖掘出频繁项集之间的关联关系之后,面对实时产生的新问题和新异常数据,及时关联到对应术语和概念,例如模型已挖掘的“垃圾堆积”概念,当实时产生居民上报的相关问题或社会摄像数据中识别出的相关情况,系统就会向管理人员后端发送待处理的“垃圾堆积”事件,从而能够进行事件自动分类和事件分派,提高事件下发和事件处置的效率,达到以事件为基础,向城市管理的相关部门提供事件数据信息的“聚合、关联、挖掘、增值、展现”等一站式服务的目的。

3 系统展示

社会治理信息系统实现数据的整合展示,在管理端能够查看指定区域的人口、房屋、组织等模块的整体信息和实时的更新,管理人员能够进行新增、编辑、完善等操作,如图6所示。

图6 社会整体信息

从图6 中可以查看基层区域的全量人口、实有人口、户籍人口等,并对疫情、特殊关怀、重点人群进行分类展示;房屋信息展示小区数、建筑物、住房单元等,并对租房、保障房等进行分类展示;组织信息展示党组织、业主委员会、社会组织等,并对业主自治和群防群治进行分类展示。

在社会治理信息系统的事件处置任务模块,整合融合多源异构数据资源后,需要处置的事件任务信息,根据居民上报和模型挖掘后,会自动在后台分类上传到管理人员手中,如图7所示。

图7 多层级事件处置

从图7中可以看出,事件有非机动车乱停放、垃圾堆积、独居老人用水异常报警等待处理任务信息提交,包括处置状态、时间状态、所属辖区、发布时间等信息,管理人员能够对事件任务及时接收和处理,提高社会矛盾纠纷化解的效率。

4 结论

本文针对社会数据多来源和数据异构的特征,基于总体架构、数据架构和部署架构建设了社会治理信息系统,通过ETL 整合数据格式,本体构建和关联分析进行数据融合,及时挖掘出基层矛盾纠纷等问题事件,并实时推送展示给管理人员,使得矛盾纠纷化解在萌芽阶段,防止纠纷进一步继续扩大,是网格化管理、精细化服务、信息化支撑、开放共享要求下的重要实现。

猜你喜欢

术语文档信息系统
浅谈Matlab与Word文档的应用接口
企业信息系统安全防护
有人一声不吭向你扔了个文档
基于区块链的通航维护信息系统研究
信息系统审计中计算机审计的应用
基于RI码计算的Word复制文档鉴别
基于SG-I6000的信息系统运检自动化诊断实践
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势