水利舆情大数据分析平台设计及应用
2022-03-09黄鸿发那泽琛
杨 非 ,黄鸿发 ,那泽琛
(1.水利部信息中心,北京 100053;2.拓尔思信息技术股份有限公司,北京 100101)
0 引言
网络舆情是社情民意集中在互联网空间的映射,当前互联网上的各类涉水信息和网络舆论进入一个“新常态”,围绕水资源短缺、水生态损害、水环境污染、水灾害威胁四大水问题,对水利行业监管、工程建设运行、水资源管理、水生态保护等水利业务工作带来不同程度的影响。因此,亟须建立全国一体化的水利舆情指挥系统和研判预警机制,进行舆情管控引导,服务水利行业内外宣传工作[1]。在水利行业舆情管理应用基础上,利用自然语言处理(NLP)和人工智能等技术和手段,丰富水利行业互联网维度的大数据,构建具有预测、预警、预演、预案功能的水利舆情大数据分析平台(以下简称平台),以精确定位网络舆情信息的敏感点、关键点、发酵点,实现信息萃取,数据提取,为水利行业智慧监督管理提供有力数据支撑[2]。
1 平台总体设计
1.1 平台功能
平台可分为水利行业舆情研判预警和指挥、互联网舆情采集处理、智能数据加工等 3 个子系统,每个子系统实现特定功能,各子系统之间相互联系、支撑,从而强化支撑,构成整体。
1)水利行业舆情研判预警和指挥系统。采用互联网大数据存储及分析平台软件,在重大活动、重要会议、敏感时期进行实时监控,支撑水利内外宣传、水利部网站宣传和舆情管理工作[3]。
2)水利互联网舆情采集处理系统。完成水利行业基础词库、行业本体和知识体系等水利知识图谱构建,研发互联网数据分析处理模型,为水利大数据分析提供数据产品及服务接口调用。
3)水利智能数据加工系统。从水资源、水生态、水环境、水利工程等多个方面进行加工分析,为业务监督管理等提供多维度数据产品服务。
1.2 总体架构
平台总体架构按照分层设计原则构建[4],自下而上分为采集层、存储层、支撑层、分析层、服务层等 5 层[5],并且由标准规范、安全保障和运行维护 3 个体系共同组成,总体架构如图1 所示。
图1 系统总体架构
1)采集层。采集各业务系统需要的业务、互联网、微博、微信等数据,包括文字、图片、视频、用户数据等内容。
2)存储层。将采集到的数据存储至数据库中,方便用户的查找及数据的后续使用。
3)分析层。面向系统提供数据分析服务。在大数据分析平台内置多种词典,基于数据挖掘、深度神经网络等技术,实现文本分类、文本聚类、情感分析、热点发现、数据比对、信息萃取、数据提取等智能分析服务。
4)服务层。为水利部门户网站、河(湖)长制、水资源管理、地下水监测、防汛会商等业务系统,提供数据服务、共享和监控管理。
5)标准规范体系。标准规范体系是遵照国家相关标准体系并参考相关行业标准,制定的数据和接口服务规范。
6)安全保障体系。在遵照执行信息安全等级保护相关规定的基础上,结合业务特点,通过在应用系统设计、实现,以及安全系统配置、使用等多个层面上实现全方位的安全保障,确保系统及数据的保密性、完整性、可用性、可控性和不可否认性[6]。
7)运行维护体系。运行维护体系是参照 ITIL(IT 基础架构库)标准规范,建立的平台运营管理模式。
2 平台关键技术
2.1 数据采集分析加工技术
针对平台功能需求,进行数据采集、提取、分析,并对系统功能进行适时开发配置和优化处理。
1)数据处理流程。根据数据质量要求,对平台进行整体开发、调整和优化,涉及从数据采集推送、数据解析入库、指标提取、数据评分到数据分析界面的整体流程,数据采集处理加工流程如图2 所示。
图2 数据采集处理加工流程图
2)数据分析处理。接收推送的数据后,系统定时自动解析数据,生成装库文件后将数据初始化到全文检索数据库中,然后自动根据分类、提取、评分模板处理数据,提取或标注数据的类型、分值、指标,并根据系统设定阈值将数据显示到系统前台对应栏目。定时任务可以根据业务需求随时进行调整,保障用户随时随地从系统前端页面了解数据增量、处理情况,并和中心数据进行对比,找出差异和变化[7]。
3)数据质量控制。优化数据采集加工的流程,细化质量控制节点,并针对控制节点制定工作标准,以保证数据质量。
2.2 数据分析模板技术
原始数据经过文本分析及结构化处理后,形成符合包括河长制、水资源等多个业务系统要求的数据,这个过程是数据分析模板定制开发和优化的过程。根据不同用业务应用,需要定制评分、分类、提取等模版并持续优化,这是一个反复迭代的过程,最终形成符合本项目要求的结果数据集。整个数据处理流程如图3 所示。
图3 数据处理流程图
1)数据排重。推送入库的数据,经过自动分类和排重后,形成各类目标数据库[8]。借助文本挖掘工具,设定数据分类和排重规则,进行数据分类、排重和过滤,为下一步实现数据智能分析提供数据准备。对于不符合需求的内容,将数据删除不入库。
标签的方式可采用排除关键词规则,或用自动分类方式解决。自动分类方式,通过对初期采集内容进行人工设定,如分为有用和无用,交由机器进行自动学习,形成智能处理模板。
2)价值信息萃取。基于价值信息定义,构建信息评价模型,实现价值信息萃取。根据互联网分类信息,制定并优化萃取模版(算法)和评分模型,通过语义、规则优化,进一步提高数据萃取效果,信息评分模型如图4 所示。
图4 信息评分模型
3)实体对象(指标)数据提取。萃取后的高价值密度数据,多以文本形式存在,通过文本分析技术抽取信息,实现对闸门名称、类型、流速、流量等实体名称和各类指标的抽取,形成结构化目标数据[9]。文本信息抽取采用基于规则与统计相结合的技术,从非结构化的文本信息中抽取有意义的事实信息,被抽取的事实信息以结构化的形式描述,并存入结构化数据库中,供分析使用。对于水利工程指标的提取,可根据当前成果库对象分类分级体系,进行抽取对象的整理,作为信息抽取的对象词库。
3 平台应用
以本研究技术模式构建的水利舆情大数据分析平台,在提供舆情中心及搜索功能的基础上,完成了水利行业监管、水资源、水生态、水环境、水利工程建管等多个方面数据的筛选分析,通过接口为水利部网站[10]、河长制管理系统、水资源管理系统、水资源大数据系统等提供所需数据,提供多维度数据产品,进行水利大数据分析,为水利行业监管提供互联网线索信息支撑等。
3.1 数据成果
截至 2021 年 12 月底,经过筛选的高密度舆情数据大库中的数据已达 4 亿多条,整体数据分为新闻、论坛、博客、微博、客户端、微信、电子报等7 种数据类型,入库量情况整体相对比较稳定,价值较高。
3.2 平台展示
平台提供了舆情中心功能,包含事件线索、脉络列表、事件溯源、热点排行、地域声量排行、信息列表、新闻报道分析、网民关注分析、涉事分析、微博分析等。通过事件线索可以清晰地展示事件原始报道点及传播途径,脉络列表主要展示与事件相关的网络信息,事件溯源则根据事件的引爆点和传播时间序列追踪事件发生源头,热点排行根据事件网络热点信息进行综合排行,网民关注分析主要针对社会公众关注的某个主题或事件进行分析。其中事件溯源和热点排行示例如图5 和 6 所示。
图5 事件溯源
图6 热点排行
4 结语
本研究通过构建水利舆情大数据分析平台,利用 NLP 构建水利行业基础词库、行业本体和知识体系(初始和特定领域),针对水利内外宣传、行业监管、生态保护、水资源管理和水利工程建管特定特征业务需求,研发互联网数据分析处理、信息萃取模型,实现了网络舆情信息价值点、敏感点、关键点、发酵点的发现,精确定位,标引及提取,并对接业务系统提供数据产品及服务调用,实现舆情信息、互联网数据与业务数据的融合服务与展现。验证了互联网维度数据支持水利业务监管的有效途径,对促进水利各项业务融合舆情,围绕水资源短缺、水生态损害、水环境污染、水灾害威胁四大水问题的水利行业监管业务效率和能力建设有重要价值,有利于加强水利网络文明建设,强化网络平台管理,净化网络舆论环境,推进网络生态治理,提升网络舆情应对能力,为水利治理能力智能化、体系结构化、效能现代化和水利高质量发展提供支撑保障。