APP下载

运营商级垃圾短信过滤平台的研发与实现

2018-09-10董婷梅

企业科技与发展 2018年9期
关键词:人工智能

董婷梅

【摘 要】开展人工智能数据分析技术研究,研究掌握运用人工智能数据分析技术实现智能过滤短信;集成采用智能分析算法、文本挖掘、中文分词、文本搜索算法及神经网络智能分析等技术手段,自动实现对垃圾信息的准确分类过滤;建立一套科学合理和可操作性强的垃圾短信治理重要技术方案。

【关键词】垃圾短信;人工智能;自动过滤

【中图分类号】TN929.53 【文献标识码】A 【文章编号】1674-0688(2018)09-0040-02

1 概述

1.1 业务背景

随着无线通信服务功能的不断增强和完善,短信业务在为用户提供便捷消息服务的同时,也为垃圾信息的传播提供了一条方便的渠道。随着我国移动通信网络建设的不断完善及越来越多的可提供给用户短信服务的平台的出现,垃圾短信有愈演愈烈的趋势。

1.2 垃圾短信的现状

每次重大商家节日(如“6·18”“双11”),促销短信空前地多。商家发来的大量促销短信表明,垃圾短信并没有远离,也没有得到成功治理。国家和运营商已大力治理垃圾短信多年,现如今短信都很少人用了,为什么垃圾短信还在发?这是因为这类促销短信带有很强的隐蔽性,很多短信是以电商卖家的名义发送的。网购必须留下正确的电话号码,所以当收到这类促销短信时,以为商家只是换了一个平台发出促销信息而已,甚至不认为其是垃圾短信。但这当中存在潜在的风险,很多诈骗短信会借“双11”之机伪装成促销短信,诱使消费者上当受骗。有些促销短信链接中可能藏有木马病毒,如果用户轻信商家发送的促销短信而去点击链接,很有可能被诈骗分子窃取网银账户等信息。

1.3 垃圾短信的治理要求

垃圾信息是指未经用户同意向用户发送的用户不愿意收到的短信息,或用户不能根据自己的意愿拒绝接收的短信息,就可判定为垃圾短信。垃圾短信有两个重要属性:?譹?訛未经用户同意向用户发送的商业类、广告类等短信息;?譺?訛其他违反行业自律性规范的短信息。

2015年5月28日,工业和信息化部发布《通信短信息服务管理规定》新规:短信息服务提供者、短信息内容提供者未经用户同意或者请求,不得向其发送商业性短信息。违者可处1万元以上3万元以下罚款。

2 运营商级垃圾短信过滤平台

2.1 总体目标

面对大数据环境下海量垃圾短信的过滤需求,电信运营商可从源头治理垃圾段,对以高维性、稀疏性和具有人为扰动特性为主要特征的海量垃圾短信文本识别的关键技术和方法展开全面、深入的研究,通过构建人为扰动的用户行为模型实现对高维、稀疏海量文本的高效分词,采用国际领先的自然语言理解技术对短信文本数据进行深层次的语义分析,能根据数据的内容自动进行文本数据特征提取、文本数据特征之间的关系提取及信息重要性的计算,构建短信文本的数据语义表达模型,利用针对低质数据的快速降维算法实现高维短信文本的高效降维,然后结合现有的数据分类方法和深度学习方法,实现基于云平台的短信文本快速自适应识别和拦截,针对海量数据分析导致过滤云的传输压力加大、扩容成本增加,以及高负载导致传输时延大等问题。

2.2 主要内容

垃圾短信识别和拦截的难处主要体现在两个方面,一方面短信是典型的以海量性、高维性、稀疏性为主要特征的电子文本,特别是在大数据环境垃圾短信(包括广告短信)识别的高效性和实时性对识别方法及其所依赖的计算平台提出了新的挑战;另一方面垃圾短信的干扰性,由于广告或诈骗性目的,很多垃圾短信都被人为地加入了一些干扰信息(人为扰动),从而进一步加大了识别的难度。相关研究内容主要包括以下方面:?譹?訛面向具有人为扰动特性的短信文本的分词系统。与普通文本不同,垃圾短信文本不但具有高维性、稀疏性和海量的特征,而且还包含了用户人为加入的一些干扰信息,使得分词问题变得更加复杂,已有的分词系统显得“力不从心”。可通过建立人为扰动的用户行为模型,并依据小世界理论,建立面向垃圾短信的词共现网络模型,最后基于该网络模型实现对短信文本的高效分词。?譺?訛基于自然语言理解技术的语义文本特征提取方法及语义表达模型。利用自然语言理解技术对短信文本数据进行深层次的语义分析,提出短信文本数据特征提取、短信文本数据特征之间的关系提取方法及重要信息的度量方法和计算方法,并利用提取的语义特征构建短信文本的数据语义表达模型。?譻?訛基于云平台的快速降维方法。由于短信文本数据特有的稀疏性可能会导致在降维过程中出现大量的数据碎片,严重影响降维效率。可依托云计算平台的数据加速性能及庞大的云存储能力,降低甚至消除数据碎片对降维效率的影响,从而对海量短信文本的物理符号模型和语义表达模型进行快速降维。?譼?訛基于改进的数据分类方法实现对海量短信文本的快速自适应识别。现有的文本数据分类方法主要是基于单机运行的,这决定了它们难以适应在大数据环境对海量文本进行分类。从神经网络发展起来的深度学习目前在海量数据处理方面已有许多成功的应用。由于其深度层次网络结点的增加,训练所耗费的时间和空间开销也会大大地增加。同样,依托于构建的云计算平台,完全可以“消费”这种时间和空间开销。因此,基于已降维的海量短信文本的物理符号模型和语义表达模型,建立文本的语义索引,将深度学习和有关数据分类方法结合起来,构造高效的、面向海量数据文本的数据语义分类方法,实现对垃圾短信的快速自适应识别。?譽?訛流量缓存技术研究。针对短信过滤系统占用服务器资源,导致通信效率和响应速度慢等问题,通过结合智能缓存、云存储和智能调度等先进技术,将人工扰动识别的中间结果通过负载均衡缓存到网内,减少服务器资源占用,提高通信效率和响应速度,保障系统能够可持续稳定运行和快速处理海量数据。

2.3 关键技术问题

?譹?訛人为扰动信息极具多样性和主观性,并且这种多样性和主观性具有时变演化特性。需构建人为扰动的用户行为模型,该模型能够自主地学习这些特性的演变趋势和规律,从而为具有人为扰动信息的短信文本的分词提供依据。?譺?訛短信本文包含的信息量十分有限,甚至有的还包含错误信息,因此从中提取有效的语义信息是本项目涉及的另一个关键技术。需利用自然语言理解技术对短信文本数据进行深层次的语义分析,设计短信文本数据特征提取方法。?譻?訛基于云计算平台,实现对海量短信文本的快速自适应识别是本项目的核心技术。需将有关数据分类方法和深度学习结合起来,提出快速的自适应短信文本语义分类方法,实现对垃圾短信文本的快速识别和拦截。?譼?訛如何利用自主的加速技术解决云过滤平台的传输插件通信效率问题,并实现良好的用户体验和交互性操作体验。?譽?訛系统设计如何模块化问题,设计上做到模块清晰、接口开放,利于进行二次开发和系统扩展。

3 平台功能

运营商级过滤平添的处理能力需达到1万条/s以上,系统应主要包含如下业务功能:关键字自动过滤、自动检测过滤、用户行为监测过滤、节假日模式过滤、建立可疑短消息库、满足相应的过滤规则、分级处理、黑名单过滤、白名单放行、红名单放行、灰名单审核、查询、过滤提示或告警、监测结果日志存储和统计分析、报表功能、权限管理、系统输出和行业短信专项监控等。系统功能结构如图1所示。

各模块功能简介如下:?譹?訛SMPP信令接口/协议解释,负责接收来自短信中心、互通网关、业务网关的短信,将短信数据入库,并转发到上层应用数据业务逻辑进行过滤处理;将过滤结果返还相关的短信中心。?譺?訛样本库过滤,根据配置的关键词库,对短信内容进行智能分析。本模塊为核心功能,综合应用了大量先进技术手段实现对文字信息的准确分类过滤,最大限度地提高过滤的判断率,降低误判率。?譻?訛行为分析执行模块执行包括发送频率、相似度、万号段命中率等方面的处理,对用户发送短信行为进行统计分析,根据既定的判断规则过滤短信。?譼?訛调度核心,负责根据用户配置的时间间隔,调用各个模块功能模块,协调系统CPU、时间片等资源。?譽?訛其他模块,包括日志、配置、网管等,用于系统维护、监控。

4 总结

电信运营商作为国家民生应用服务类企业,应承担起相应的社会责任,从源头上治理垃圾短信。早在2008年,工信部就曾开展专项行动打击垃圾短信短信行动,但时至今日,垃圾短信愈演愈烈。电信运营商不但要建设垃圾短信过滤系统,还要不断优化系统,以应对复杂多变的市场环境。

参 考 文 献

[1]沈超,黄卫东.数据挖掘在垃圾短信过滤中的应用[J].电子科技大学学报,2009(38):21-24.

[2]张明旺.基于内容的垃圾短信分类技术研究[J].信息与电脑,2015(24):28-30.

[3]杨忆,李建国,葛方振.基于Scikit-Learn的垃圾短信过滤方法实证研究[J].淮北师范大学学报,2016(4):

39-41.

[4]葛广为.贝叶斯分类在垃圾短信过滤中的应用[D].昆明:云南财经大学,2015.

[责任编辑:钟声贤]

猜你喜欢

人工智能
我校新增“人工智能”本科专业
用“小AI”解决人工智能的“大”烦恼
当人工智能遇见再制造
2019:人工智能
AI人工智能解疑答问
人工智能与就业
基于人工智能的电力系统自动化控制
人工智能,来了
数读人工智能
人工智能来了