APP下载

一种基于Python 的政务服务“数字员工”系统设计

2024-11-29方钟亮

电脑知识与技术 2024年27期

摘要:为进一步优化政务服务提升行政效能,通过模式创新和数据赋能等途径,在不同业务场景实现高效办理和有效数据治理是当今时代赋予政务服务改革的命题。政务服务大厅通常面临系统数据不互通、各种系统要求审批信息多次录入的情况,这增加审批人员负担,阻碍了数据的有效共享。文章以昆山市为例,阐述了政务服务“数字员工”系统设计,包括数据采集、自动化填报、智能辅助审批、基于政务服务平台的数据共享和后台管理监督功能,为提升政务服务效能、促进数据共享提供了一个有效的途径。

关键词:Python;数字员工;网络爬虫;数据采集

中图分类号:TP391.9 文献标识码:A

文章编号:1009-3044(2024)27-0038-04

0 引言

随着我国在政务服务领域改革不断深入,一网通办建设对数据共享应用方面需求越来越大,这要求数据的标准化、横向系统整合和业务高度协同。同时各部门信息系统也在自身业务需求上快速迭代更新,这就带来了问题:异构信息系统数据共享困难,一线审批人员对每笔业务需要在多个系统进行填报录入,数据归集存在完整性、正确性和及时性上的质量问题。当业务量大时容易发生录入错误,同时也影响了工作效率,不利于政务服务领域数据治理。对于通过软件层面开发对接功能来实现数据共享是一种途径,但费时费力成本高,且不适用于业务的动态变化。

本文主要面向政务服务大厅审批人员在日常审批服务时,需要多个系统重复录入的问题,展开机器人数据搬运的应用设计,将“数字员工”和政务服务相结合,实现数据采集上报、智能辅助审核及其他管理系统间共享等应用,将工作人员从烦琐的信息报送操作中解放出来,提升工作效率和数据共享便捷度。

1 相关技术概念

1.1 RPA 智能机器人

RPA智能机器人是通过计算机软件编制,面向有规则、重复任务场景,实现操作自动化处理的程序或脚本,具有低代码、非入侵等特性,可快速部署投产,是一种数字化的劳动力。目前主流的RPA产品有Ui⁃Path、Blue Prism、Automation Anywhere、UiBot 等[1],技术功能成熟,但是商用收费性质,且在数据二次开发利用、个性功能定制等方面存在不足。

1.2 基于Python 的爬虫技术

网络爬虫是面向互联网网页,可模拟浏览器访问行为,通过获取网页代码,再解析信息,对网页上的其他链接地址可根据不同算法进行队列访问,实现自动化处理的程序[2]。Python 是一款功能强大的编程语言,美国电气和电子工程师学会会刊将其评为2023年度编程语言排行榜之首[3],,拥有丰富的功能库支持,在人工智能开发方面被广泛应用[4]。基于Python网络爬虫包括了URL管理、网页下载和解析、数据存储和数据分析等功能[5],常用功能库包括用于网页请求的Urllib、Requests、Httpx,用于网页数据解析的库lxml、pyquery、BeautifulSoup、parsel等,用于数据分析的Mat⁃plotlib、Pandas、NumPy等;Scrapy是Python开发的爬虫框架,基于Twisted 异步架构,部署灵活,支持深度定制开发,适用于多业务环境下高并发的复杂操作[6]。

2 业务需求分析

在政务服务领域,审批工作面临着普遍特性:1) 多次录入。大部分许可类业务都基于部门条线业务系统操作。政务服务中心参照“互联网+政务服务”技术标准建设的政务服务平台,主要作用是统一受理和办件信息归集共享,两类系统在数据结构标准上存在差异,且系统因跨部门、跨行政层级等问题无法对接;部分业务在基层审批系统操作完后需要在省级管理平台再录入;作为横向部门的信用信息公示、“互联网+监管”等基于综合管理要求,须将审批数据实时地报送。这就造成了审批人员的多系统操作录入;2) 网络环境和数据特性。除公安等系统要求运行于专网物理隔离外,其余审批服务类系统运行于电子政务外网,数据层面审批工作在业务系统录入审核数据,对应字段范围是相对固定;3) 智能助审可行性。对于申请材料信息格式化提取后,可基于规则由程序来进行判定,实现机器审核。但从法理上行政审批须由审批人员基于行政职能来实施,因此机器审核结果可以作为审批工作的参考,发挥辅助性作用,从此视角可以开发智能助审功能。

基于上述特性,面向政务服务的“数字员工”系统设计采用以下的技术路线:1) 采用基于Python的爬虫技术实现定向数据搬运,系统运行于电子政务外网环境;2) 结合业务审核规则,对数据进行机器解析判别,为审批业务提供辅助功能;3) 发挥政务服务平台枢纽作用,对采集数据进行格式化后,共享给其他管理类系统,减少审批人员工作量;4) 对爬取数据进行沉淀,实现一定程度统计分析管理。

3 系统架构设计

政务服务“数字员工”系统设计包括了:基于客户端的数据抓取和填报模块,基于服务端数据共享服务、智能辅助审核、状态监控和可视化分析模块,基于政务服务平台办件信息管理和共享应用,系统框架设计如图1所示:

1) 客户端数据抓取是面向被抓取原系统,通过设置参数,系统定位到数据展示页面,爬取数据后存入本机和服务端数据库。数据填报是面向不可对接、需要二次录入的目标系统,对需要人工干预场景提供插件式触发填报,无须人工干预场景实现自动化填报。

2) 服务端除数据库存储外,共享服务提供了向第三方系统的办件推送;智能审核管理则根据获取的申报材料和审核规则提供文字解析和辅助性预审能力;机器人状态监控对客户端部署的机器人实施可用性检测;可视化统计则对爬取数据提供可视化图表展示功能。

3) 政务服务平台则发挥了数据和应用的枢纽,提供个性化业务申报和受理功能,通过调用服务端智能助审能力来展示机器分析结果,实现智能助审。同时通过办件数据的再次交换向其他管理类软件实现数据报送,减少审批人员的多次录入。

4 关键功能设计

4.1 受理信息采集

面向一些业务由本级系统受理审批,但需要向条线管理系统进行信息报送,且系统无法对接的场景,采用的策略是由机器人进行受理系统的信息抓取和填报。信息采集的流程如图2所示:

1) 模拟登录。采集动作的发起由操作人员或可以设置成系统自动运行。程序运行首选要加载Re⁃quests、BeautifulSoup、xlwt等功能库,初始化爬取访问会话Session,设置模拟访问头部用户代理User-Agent 信息,定位业务系统登录地址LOG_URL,将用户名和密码设置到登录参数后,调用会话Post方法登录系统,并通过会话模式保持登录状态。

对运行于电子政务网的业务系统,通常情况仅限于用户名和账号登录认证,不设置登录验证码。对于需要登录验证码识别的情况,可引入基于tesserocr库的OCR图像识别、基于opencv-python库滑动窗口识别功能,但识别效率不高,不适用于自动模拟登录,对此情况则由操作人员人工完成登录。

2) 计算关键字列表。登录业务系统后,系统的统计页面可查询受理记录,并分页显示,页面地址特性在查询页面地址通过后缀参数:&page=‘页数’来分页,每条记录显示主要关键字信息。对此构建统计页地址LIST_URL‘, 页数’作为变量参数,通过采用分页循环的方式,利用会话Get方式获取页面源码、Beauti⁃fulSoup.find_all方式解析记录列表值,通过字段解析形成关键字数据列表。列表中受理记录的受理时间、记录编号都是递增和降序排列,通过比较数据库中历史业务受理时间,截取形成最新受理记录关键字列表need_List。

3) 建立记录属性数据集。在统计页面点击链接可打开记录详情页面,地址特性是系统地址后缀参数:&id=‘记录编号’来表示,构建记录详情页面的 URL 地址(Detail_URL) ,使用记录编号(id) 作为变量参数。在遍历need_List列表时,通过每条记录的编号属性定位到对应的详情页面,并解析记录的各个属性值,从而形成本次采集的数据集。最后,将数据提交到数据库保存,并利用xlwt库将数据写入客户端的 Excel 文件。

4.2 办件信息填报

1) 全自动填报。对于采集记录各属性值完全符合在目标系统填报,而无须人工干预的情况,基于Py⁃thon技术实现自动填报处理。开启自动填报流程后,系统首先完成自动登录目标业务系统,处理方式同数据采集模块,登录后系统通过时间段和采集状态,读取比对数据库记录,形成本次需要填报的记录数据集put_List。然后进行遍历put_List,根据记录item的业务分类属性确定目标系统业务提交的页面地址PUT_URL_X,对页面表单中属性值进行对应item数据赋值,然后通过会话的Post方法提交数据记录,并访问数据库对记录填报状态值进行标记,以此来完成数据集数据全部自动填报,办理信息填报流程如图3所示。

2) 半自动填报。对于只需要将指定的采集记录进行目标系统填报,或通过采集记录填报后,存在若干属性值需人工补充填报的情况,则利用JavaScript 技术构建浏览器插件方式实现半自动填报。首先需要用户人工登录目标业务系统,定位到系统填报页面,然后通过浏览器“管理扩展功能”打开JS插件,插件功能实现通过人工输入记录编号等关键字信息,向服务器调取记录的全部属性值,通过JS技术向页面的各文本框组件进行赋值,对须补充填报的信息,由人工进行填报,再人工点击提交按钮完成半自动填报。

4.3 辅助审核

在政务服务领域,对于事项的审核聚焦在附件表格字段信息比对,当字段信息取值范围确定,比对规则固定,则可以引入机器审核的功能,通过智能化字段信息解析比对,实现材料附件的要素审核,其审核的结果可应用在政务服务平台,作为辅助性审核参考依据,以此来减轻审核人员的工作强度,提高审批效率。在服务端建立辅助审核模块,同政务服务平台进行数据协同应用,实现平台的智能化辅助审核,工作流程如图4所示。

1) 申报人员通过政务服务网统一用户认证进行登录,定位到申报事项后进入申报页面,在申报页面上传材料附件,附件在政务服务网办事指南中有样本可下载,用户须按样本要求进行填报。

2) 政务服务平台在接收到材料附件后,传送至服务端的辅助审核模块处理;模块首先进行附件材料解析,不同事项对应上传附件材料不同,通过对事项的样本材料建立解析读取功能,形成事项整个材料解析规则功能集合,用于解析环节调用。模块应用到Python-docx、Pandas、Pytesseract等库对Word、Excel和图片进行读取。

3) 审核功能环节,通过对关键字信息的取值范围的比对设计功能函数,形成附件审核要点的规则功能库。附件审核时对解析字段信息调用审核规则功能,获取该要点审核结果记录,所有要点审核完成后反馈政务服务平台,后者以提示信息的方式将机器审核的结果记录列表进行展示,供审批人员进行比对参考。

4.4 政务服务平台应用

基于“数字员工”系统数据采集后,可将办件信息归集至政务服务平台,平台可发挥枢纽作用,实现政务服务管理及信息二次复用,其流程如图5所示。

1) 办件信息归集,政务服务平台要求完成本级政务服务事项办件信息归集,“数字员工”对部门业务系统进行数据采集后,可以通过API接口方式,将办件信息推送至政务服务平台,后者对办件数据的格式定义是基于统一标准格式。存在部门业务系统字段信息同政务服务平台标准不一致的情况,如政务服务平台对事项名称和编码是根据全省统一的政务服务事项库定义,要求三级四同,但业务系统的业务名称根据部门自定义,此时需要政务服务平台进行数据的修正。

2) 政务服务管理,对于从“数字员工”系统获取的办件信息,政务服务平台实现管理功能,一是完成办件归集上报,办件存入办件库,并同步至上级政务服务平台;二是办件信息公示,在政务服务网的旗舰店提供办件信息公示,提供按事项名称、编码、申请人等信息查询办理状态的功能;三是大厅管理,对办件信息进行统计分析,开发可视化功能,对进驻政务服务大厅的窗口业务量、业务类型进行趋势图分析,实现一定的管理分析功能;四是政务服务平台“好差评”功能,面向公众提供办件评价功能,督促服务质量改进。

3) 信息共享复用,政务服务平台通过对接市公共数据底座平台,将办件信息数据资源进行编目和挂载共享。通过公共数据底座平台,数据可同步至信用信息管理平台、“互联网+监管”平台、基层审批服务执法“三整合”平台等综合性的管理系统,为数字化治理提供支撑。各部门对审批办件信息有需求的也可按需申请共享,以此实现数据共享复用。

4.5 统计监督功能

对政务服务“数字员工”系统的运行情况,从管理角度设计以下几方面功能:一是数据汇聚统计,对“数字员工”处理过的所有数据,均存入服务端数据库,建立基于Web服务的查询功能,提供按业务、时间等维度进行查询统计,设计了柱状图月度业务统计表,如图6所示,以便管理人员分析业务情况;二是服务监督功能,数据采集模块会以脚本批处理方式每日定时运行或是由审批人员触发执行,系统会根据业务特性设定一个的时间监督阈值,在时间监督阈值内有采集数据入库,则视为采集模块正常活跃,否则视为静默异常,并在后台系统界面用警示图标表示,管理人员可以向前端窗口排查问题,进行应用功能恢复。

5 应用成效

昆山市政务服务中心启用“数字员工”系统,在市场主体登记、公共卫生许可、网约出租车许可、道路运输许可等业务场景进行了试点。2023年8月至2024 年4月,“数字员工”处理的业务办件情况如图7所示,累计处理办件58 524件。从时间效益成本分析,一笔审批业务,在通过业务系统审批操作后,由人工录入到其他管理系统,需要业务查询、信息录入、核对、提交等操作,平均用时约3分钟,由此“数字员工”处理的办件量折算人工时耗约2 926小时,这部分人工时间成本通过“数字员工”机器处理方式进行了抵消,极大减轻了审批人员压力,增加了数据录入的准确性,为审批信息的共享复用提供了高效的途径,系统的运行在政务服务管理方面取得了明显的成效。

6 结束语

本文针对政务服务领域面临的办件信息多次录入的情况,分析了业务场景的特点,介绍了网络爬虫技术特性,并阐述了基于Python的政务服务“数字员工”系统设计。系统提供了办件数据抓取功能,实现了自动化和半自动的数据填报,并结合政务服务平台实现了辅助审核功能,同时发挥政务服务平台枢纽功能,对采集数据通过公共数据底座向其他管理类系统进行共享,在服务端设计了对采集数据分类统计和服务监控的功能。系统自投入使用后,极大地缓解了审批人员反复录入的压力,促进了办件数据信息的共享复用,发挥了积极的成效。下一步系统将围绕数据政府建设,聚焦数据场景开发利用,将“数字员工”投入更多业务场景,为数据共享发挥桥梁作用,同时将不断探索利用OCR技术来提高对申报材料附件的识别,加强对手写体识别功能,结合电子证照应用来进一步提升审批服务的智能化水平。

参考文献:

[1] 朱龙春.RPA智能机器人:实施方法和行业解决方案[M].北京:机械工业出版社,2020:17-18.

[2] 崔庆才.Python 3网络爬虫开发实战[M].2版.北京:人民邮电出版社,2021:19-20.

[3] Stephen Cass.The Top Programming Languages 2023[EB/OL].[2023-08-29].https://spectrum.ieee.org/the-top-programminglanguages-2023.

[4] 黎孟雄,李杨.基于Python的MOOC评论情感分析系统的研究与设计[J].湖南工业职业技术学院学报,2023,23(6):19-25.

[5] 姜秋香,郭伟鹏,王子龙,等.Python语言在水文水资源领域中的应用与展望[J].计算机工程与应用,2023,59(9):46-58.

[6] 张明杰,王妮,李怡.基于网络爬虫的舆情情感分析系统设计与实现[J].电脑编程技巧与维护,2023(3):171-173.

【通联编辑:梁书】