基于数据挖掘的客户舆情预警监控系统设计
2022-10-28于亮钟宏伟李海涛陈海洋杜欣然
于亮,钟宏伟,李海涛,陈海洋,杜欣然
(国网北京市电力公司客户服务中心,北京 100078)
数据挖掘可通过大数据分析的方式,从海量数据中发现其中所蕴含的存储规律,大体上由数据准备、规律寻找、规律表达三个环节组成。数据准备是指在待挖掘数据信息中,提取所需的信息参量,并将其整合成全新的数据集合文件[1-2];规律寻找可通过多种方法,将数据集合文件所蕴含的信息规律表达出来;规律表示则是以用户对象可以理解的方式,将已寻找到的规律条件翻译成计算机识别语言。
舆情分析是根据问题需要,对该问题的舆情进行深度分析,并得出最终结论的处理过程。对企业单位来说,由于互联网平台的出现,客户言论具备了更为广阔的交流空间,可使舆情信息得到快速地传播与培育。传统入侵检测型监控系统通过离群程度分值计算的方式,确定客户舆情信息参量的实际传输能力,再借助各级硬件设备结构,实现对预警条件的准确表达。然而此系统对于预警信息的增删处理能力有限,并不能实现对客户舆情数据的准确查询。为避免上述情况的发生,设计基于数据挖掘的客户舆情预警监控系统,在数据簇中心提取结果的支持下,对监控样本条件进行准确定义,再按照客户舆情数据的转换方式,计算得到准确的预警复杂分值结果。
1 系统硬件设计
客户舆情预警监控系统的硬件执行环境搭载,包含数据挖掘架构连接、客户舆情数据转换方式表达等多个处理环节,具体操作方法如下。
1.1 数据挖掘架构
数据挖掘架构作为客户舆情预警监控系统搭建的基础硬件执行结构,由客户舆情信息数据库、客户信息系统、预警监控引擎、用户审核平台等多个模块共同组成,如图1 所示。其中,舆情信息数据库负责存储与企业客户信息相关的数据参量,可在企业中转站体系的作用下,按照既定挖掘规则对数据信息进行重新排列,并将全新的数据包文件传输至系统预警监控引擎中[3-4]。客户信息系统分列于预警监控引擎与用户审核平台两端,可在提取数据库组织中关键客户舆情信息参量的同时,生成与初始形态完全不同的可发布信息参量,并可将其中的部分待审核数据信息文件反馈回企业中转站。
图1 数据挖掘架构示意图
1.2 客户舆情数据转换方式
在客户舆情预警监控系统中,数据挖掘引擎可在网络爬虫结构的作用下,对待传输的数据信息参量进行转换处理,一方面可将存储于数据库主机中的原始客户舆情信息调度成更加积极的传输状态,另一方面也可使处于空闲状态的数据挖掘引擎得到良性化占据[5-6]。一般情况下,原始的客户舆情信息只能以网络资源的形式存储于数据库主机中,而随着采集指令的实施,这些格式已定的数据参量则会自发转换成HTML、URL 等多种形式的信息文件,在预警监控索引条件的支持下,完成转换的客户舆情数据可自动存储于系统数据库主机中,且其后续传输行为也不再对数据挖掘框架的应用稳定性造成影响。客户舆情数据转换原理如图2 所示。
图2 客户舆情数据转换原理
1.3 自身结构功能
客户舆情信息的自身结构功能由预警搜索程序、监控指令编码、挖掘数据列表三类条件共同组成。其中,预警搜索程序能够定义客户舆情信息的初始查询能力,在已知数据转换方式的情况下,待传输的数据参量值越大,客户舆情信息所能遍历的监控设备元件数量也就越多[7-8]。监控指令编码能够约束客户舆情信息的实际传输距离,可在数据挖掘架构体系的作用下,实现对系统预警监控功能的初步完善。挖掘数据列表的结构功能相对较为单一,仅能表达客户舆情信息的现有应用能力,并可借助相关信道组织,建立企业中转站与舆情客户端主机之间的物理连接关系[9-10]。自身结构功能定义如表1所示。
表1 客户舆情信息的自身结构功能定义
2 系统软件设计
在相关硬件设备结构体系的支持下,按照数据簇中心提取、监控样本定义、预警复杂分值计算的处理流程,完成系统的软件执行环境搭建,两相结合,实现基于数据挖掘客户舆情预警监控系统的顺利应用。
2.1 数据簇中心提取
数据簇中心提取是数据挖掘算法实施的必要处理环节,可在已知客户舆情信息自身结构功能条件的基础上,将预警监控系统的执行模块划分成多个功能性结构,其中一部分功能性结构用于构建全新的数据挖掘框架,另一部分功能性结构则用于获取系统预警监控指令中的非合理传输信息。在不考虑其他干扰条件的情况下,数据簇中心提取结果受到信息数据传输时长、系统预警监控系数几项物理指标的直接影响[11-12]。信息数据传输时长可表示为ΔT,由于数据挖掘框架体系的存在,该项物理量在客户舆情信息的处理过程中,不具备无线延长的能力。i、j分别代表两个不同的系统预警监控系数,在客户舆情信息的单位传输时长中,i>j的物理表达式恒成立。联立上述物理量,可将客户舆情预警监控系统的数据簇中心提取结果表示为:
其中,n代表单位时间内的客户舆情信息定义项参量,xi、xj分别代表i与j条件下的客户舆情信息数据特征值。
2.2 监控样本定义
监控样本是以客户舆情信息传输需求为基础的系统应用指令判别条件,在预警监控系统的实施环境中,数据挖掘框架所能定义的监控样本总量越大,系统主机所具备的客户舆情信息筛选能力也就越强。规定yˉ代表独立数据挖掘框架中客户舆情信息参量的传输均值,通常情况下,随着预警监控指令执行时间的延长,该项物理量的数值形式也会呈现不断增大的变化状态,进而促使待定义监控样本的数量级水平不断增多[13-14]。λ代表既定的客户舆情信息监控指标参量,受到系统应用时长、数据信息传输量等多项物理条件的影响,该项物理系数指标的数值水平将直接影响监控样本参量的实际定义结果。在上述物理量的支持下,联立式(1),可将客户舆情信息的监控样本定义结果表示为:
式中,f代表与数据挖掘框架匹配的客户舆情信息单向传输系数,代表数据信息参量的预警监控特征参量值。
2.3 预警复杂分值计算
预警复杂分值计算是客户舆情预警监控系统设计的末尾处理环节,可在数据挖掘框架结构的支持下,在预存储客户舆情信息中选择出最关键的数据指标参量,再根据系统执行指令所属的具体操作环节,对系统数据库主机进行清空处理,从而使得待传输的客户舆情信息得到有效地转存处理[15-16]。设r1、r2分别代表两个不同的客户舆情预警系统监控指征值,由于数据挖掘框架体系的存在,上述两项物理指标在整个系统执行周期内,始终不具备相等的可能。在上述物理量的支持下,联立式(2),可将系统的预警复杂分值计算结果表示为:
其中,β代表系统环境中的客户舆情信息清空处理系数,kmax代表最大的信息数据传输指标参量,kmin代表最小的信息数据传输指标参量。至此,实现各项软、硬件基础执行模块的搭建,在数据挖掘框架体系的支持下,完成新型客户舆情预警监控系统的设计[17]。
3 实验结果分析
在图3 所示的运行环境中,分别将实验组、对照组应用主机与数据传输网络相连,其中实验组应用主机搭载基于数据挖掘的客户舆情预警监控系统,对照组应用主机搭载传统入侵检测型监控系统。出于实验公平性考虑,除所应用监控系统不同外,实验组、对照组所有信息参量数值始终保持一致。
图3 客户舆情预警监控系统运行模式
UDR 指标能够反映系统所获客户舆情信息与原始客户舆情信息间的匹配度水平,通常情况下,UDR指标数值越大,所获信息与原始信息间的匹配度水平也就越高,反之则越低。表2 记录了实验组、对照组UDR 指标的具体数值情况。
表2 UDR指标记录数值
表2 中,实验组UDR 指标在前20 min 的实验时间内,始终保持绝对平稳的数值变化趋势,而从第25 min 开始,UDR 指标的数值变化趋势开始逐渐趋于稳定且连续的波动。对照组UDR 指标在前35 min的实验时间内,一直维持不断上升的数值变化态势,而从第40 min 开始,这种数值变化状态开始逐渐趋于稳定。整个实验过程中,实验组最大值68.20%与对照组最大值40.18%相比,上升了28.02%。
PPS 指标则反映了系统主机对于客户舆情信息的处理能力,在既定网络环境中,PPS 指标均值水平越高,系统主机对于客户舆情信息的处理能力越强。具体实验记录值如表3 所示。
表3 PPS指标记录数值
上述实验数值结果显示,实验组PPS 指标数值始终保持连续上升的变化状态;对照组PPS 指标则始终保持相对稳定的数值变化趋势。从平均值角度来看,实验组均值71.43%与对照组均值44.67%相比,上升了26.76%。
综上可知,随着新型客户舆情预警监控系统的应用,UDR 指标数值、PPS 指标数值均出现了不同程度的提升,不仅大幅提升了系统所获客户舆情信息与原始客户舆情信息间的匹配度水平,能够实现对客户舆情信息的快速准确判定,为后续安排客户服务相关举措提供有力支撑。
4 结束语
在传统入侵检测型监控系统的基础上,新型客户舆情预警监控系统引入数据挖掘框架,在定义客户舆情数据转换方式的同时,实现对数据簇中心参量的准确提取,不仅加强了监控样本信息的实用性能力,也计算得到了更为标准的预警复杂分值结果。从实用性角度来看,UDR 指标与PPS 指标数值的提升,可在互联网平台中较好地维护客户言论的交流空间,从而对企业客户服务工单进行舆情监测。