基于中文分词的预警短信审核平台
2018-06-17陈焯坚廖镇强吴志纯何小玲
陈焯坚 廖镇强 吴志纯 何小玲
摘要:随着网络技术的快速发展,越来越多的预警短信可以通过网络终端进行大范围传播,其传播速度快,覆盖范围广,成为人们接收预警信息的一种非常重要方式。然而人们在享受实时预警短信时,还需要面对垃圾预警短信的骚扰,严重影响预警短信的功能性,因此提出基于中文分词的预警短信审核平台,来过滤垃圾预警短信。通过对基于中文分词的预警短信审核平台进行硬件、软件设计,结合试验分析表明,提出的基于中文分词的预警短信审核平台,具有较高的实用性,相比常规预警短信发布平台,能够有效过滤掉80%垃圾短信。
关键词:中文分词;预警短信;审核平台;实时性
中图分类号:TP303 文献标识码:A
引言
预警短信多应用在天气预报等自然灾害预警领域,对人们出行、生活有着重要的导向意义。大多数预警短信都是基于Internet网络终端,依托中心数据库服务器,通过短信平台发送出来的。人们在接收预警短信的同时,也会受到垃圾短信的干扰,因此提出基于中文分词的预警短信审核平台。通过短信审核平台对垃圾短信进行过滤,解决电信系统的顽疾,改善移动通信业的负面影响。首先利用中文分词技术,实现对预警短信发布前的快速检验。然后利用以往的历史数据,对预警短信进行分析入库,没有出现在库中的词语给予提示。最后基于正则表达式验证发布时间,完成基于中文分词的预警短信审核平台的工作流程设计。
1基于中文分词的预警短信审核平台硬件设计
首先选择GSM Modem,作为预警短信审核平台的工业级调制解调器,通过USB接口或RS232串口,使其与Internet网络终端计算机进行连接,同时使用AT指令控制GSM Modem。选择基于Windows系统的短信中间件,采用数据库接口方式,对其进行接口连接,应用MySQL作为平台的数据库,设计的预警短信审核平台硬件模式如图1所示[1]。其中,短信服务中间件主要负责建立4个共享数据库表,这些数据库表都是面向客户系统的,分别是接收记录表、已发送记录表、待发送任务表以及时间记录表。
通过脚本程序,将预警短信要发送的内容、发送时间、接收人手机号以及发送优先级进行存储,完成预警短信实时发送。
基于中文分词的预警短信审核平台,还要加入中文分词模块,通过该模块对预警短信进行审核。中文分词模块是实现预警短信文本审核的基础,通过中文分析模块,可以达到Internet网络终端计算机自动识别语句含义的效果,从而完成基于中文分词的预警短信审核平台硬件设计。
2基于中文分词的预警短信审核平台软件设计
基于中文分词的预警短信审核平台软件设计,即平台工作流程设计,首先通过中文分词模块中的中文分词算法,对预警短信中的实意词进行提取,通过实意词准确地把握预警短信的特征,根据预警短信的特征判断即将发送的预警短信是否为垃圾短信。常规短信审核模块无法对特殊符号进行审核,而中文分词技术可以将“*”、“$”、“¥”等特殊符号进行过滤,对短信内容进行分词,实现对预警短信发布前的快速检验[2]。
然后利用以往的历史数据,即MySQL数据库中的历史预警短信信息,对预警短信进行分析入库,设计的分析入库程序的流程,首先初始化读取预警短信中的最新短信ID,然后访问数据库,判断接收记录表中的短信ID是否大于最新短信ID,接下来从接收记录表中读取短信,匹配预警短信关键词,如果匹配不成功,则表明为垃圾短信,给予提示,删除。如果匹配成功,将目标号码和短信,录入待发送任务表,存入txt文件,形成新的短信ID。
通过对中文分词的预警短信审核平台工作流程进行设计,完成平台软件部分设计,结合平台硬件设计,实现基于中文分词的预警短信审核平台整体设计。
3试验分析
为了保证本文提出的基于中文分词的预警短信审核平台有效性,进行试验分析。试验过程中,事先编写100条预警短信,其中还有10条为垃圾短信,平均分成两组,一组基于Internet网络终端计算机,依托中心数据库服务器,通过常规预警短信平台发送出来;另一组通过本文设计的基于中文分词的预警短信审核平台发送出来,进行试验对比分析。对比两次试验结果,并将试验数据呈现在同一数据图表中。
3.1数据准备
为了保证试验过程的准确性,对试验参数进行设置,试验数据设置结果如表1所示。
试验首先,将100条预警短信存入txt文件,按照表1要求设置基于Internet网络终端计算机以及中心数据库服务器,然后按照设定的预警短息发送时间,进行相关性操作。在相同试验环境,相同影响参数下,让常规预警短信发送平台、本文提出的审核平台动作,进行试验分析。最后将结果进行加权处理,汇总在图一张图表中。
3.2试验结果分析
利用第三方数据记录软件,得出试验结果如图2所示:
根据图2试验结果汇总图,对试验结果汇总整理后,得出常规预警短信平台无法对垃圾短信进行过滤,而本文设计的预警短信审核平台,能够有效减少垃圾短信80%发出量,有效改善移动通信业的负面影响。
4 结语
本文提出了基于中文分词的预警短信审核平台,通过对基于中文分词的预警短信审核平台进行硬件、软件设计,结合试验分析表明,本文提出的基于中文分词的预警短信审核平台,具有较高的实用性,相比常规预警短信发布平台,能够有效过滤掉80%垃圾短信。希望本文能为预警短信审核研究提供参考价值。
参考文献
[1] 姚茂建,李晗静,吕会华,et al. 基于BI_LSTM_CRF神经网络的序列标注中文分词方法[J]. 现代电子技术,2019,42(01):103-107.
[2] 王黎. 基于人為干预因素角度的反恐情报预警信息系统解决方案[J]. 情报杂志,2017(04):37-44+64.
(作者单位:广东省佛冈县气象局)