基于短信综合特征识别技术的垃圾短信二次放通策略实践与应用
2015-03-18张秀芳
□王 琳 张秀芳
随着各大运营商对垃圾短信治理力度的加大,垃圾短信投放者为了躲避监控和拦截,对垃圾短信的投放方式和投放内容皆也在不断变化改进,导致垃圾短信系统的拦截效果越来越差,普通垃圾短信监控策略已不能适应垃圾短信的快速变化,垃圾短信内容的多变和趋常,已导致大量正常短信被误拦截,给用户的使用带来不便的同时增加了短信的投诉量,对运营商的品牌形象造成了恶劣影响。为了保证用户正常短信业务的使用,对日益频繁、不断变异的垃圾短信做到更精确的识别处理,对现有垃圾短信平台进行优化,有效改善用户短信业务体验。
一、业务创新技术方案实现
(一)智能分析功能。针对垃圾短信投放方式及内容的不断变化,智能分析模块利用当前领先的短信综合特征技术,通过“历史短信样本综合特征”快速匹配方案、短信相似内容聚类、新策略智能生成等方式,不断自动循环来生成新的拦截策略,来应对不断变异的垃圾短信。
1.实现思路。本功能整体实现由两部分组成,一是利用当前已有的拦截策略对现网垃圾短信进行拦截,二是利用已拦截的垃圾短信,通过分析其发送内容及方式的变化,生成新的拦截策略。通过这种智能化的循环可以及时有效地对垃圾短信进行动态的拦截。
2.智能分析功能实现。
(1)垃圾短信内容自动审核。为了更精准地对垃圾短信进行识别,河北联通创新了一种基于“历史短信样本综合特征”的快速自动匹配方案。在第一时间对疑似垃圾短信内容进行精准分类识别。一是垃圾短信语义分析,算法分类。干扰字符剔除等干扰字符,还原真实内容;变种字符转换;短信分词,按分词库提取分词,分词库可管理、维护;变种关键字词还原;分词结果积分计算,每分词对应不同短信类型的积分不同,分词及其积分值,可维护、调整。根据算法公式计算得出单条短信的所属类型。二是相似短信排重。使用HASH 算法(散列值),对短信内容完全相同的数据进行排重;剔除干扰字符、还原变种关键字和广告主、剔除感叹词及助词等无意义内容后,剩余内容完全相同的短信进行相似短信排重;根据短信分词结果,按分词聚类系数,对短信内容高度相似的数据进行聚类。三是自动匹配审核。提取垃圾短信“综合特征”关键字、提取“黑关键字词”;依据历史短信样本池数据进行自动匹配审核,历史池通过人工二次补审不断补充积累;匹配条件:垃圾短信“综合特征”关键字相同、提取的“黑关键字词”有(0~20个字词,可设置调整)相同。
(2)垃圾短信相似内容聚类。垃圾短信群发商在进行短信群发时,经常通过修改短信内容中的个别关键字词、新增关键字词变种,怎样快速识别相似短信,提取共性特征是“短信相似聚类”的一个重要目的。一是按内容聚类。剔除“干扰字符”、“还原变种关键字和广告主”、剔除“感叹词”及“助词”等“无意义关键字词”或“白关键字词”内容后,剩余内容完全相同的短信进行相似短信排重。二是按关键字词聚类。根据短信分词结果,按分词聚类系数,对短信内容高度相似的数据进行聚类。三是新策略智能生成。除现有策略优化外,新增策略也是以往策略维护工作中的难题,人工对7个AND7个OR 的策略进行提取是一件非常复杂繁琐的工作,“垃圾短信监控策略生成模块”简而言之是为了将垃圾短信中提取出来的中文关键词作为拦截关键词而服务的,拦截系统可以利用此项技术来不断更新需要拦截的关键字策略组合。一是提取的关键字可以是变种或非变种的组合。二是提取垃圾短信中包含的“广告主号码”,并对广告主号码进行自动分类中文关键字提取,是循环自动进行提取,通过对现有一定数量的已审核垃圾短信和正常短信样本进行分析,最后自动抽取出新的中文关键字词。
(二)灰名单监控功能。此功能支持对部分灰名单用户的拦截阈值单独配置。通过对于不同灰名单用户垃圾短信发送情况的分析,设置不同的监控阀值可以更加有效地起到垃圾短信拦截作用。
1.实现思路。由于需要对灰名单进行分组,不同分组的灰名单可以配置不同的监控阈值。所以采用对号码进行用户分群的方式实现。利用现有垃圾短信监控系统的用户群功能。
2.用户群管理。支持对用户群的手工管理,包括:添加、删除、修改用户群。用户群的名称可以自定义。在“用户群管理”页面上,可以创建多个不同的灰名单群。最多可以创建10个用户群。
3.用户群名单管理。支持为每个用户群添加自己的名单,可支持添加、删除、修改、导入、导出功能。在“用户群名单管理”页面上,将不同的灰名单添加到相应的灰名单用户群中。
4.用户群监控策略配置和监控。配置好用户群之后,可以在监控策略配置功能中,增加为每个用户群配置属于自己的监控策略,可以支持所有监控模型。每个用户群的策略,都可以设置自己的监控阈值和时间片。
监控规则:一是如果一个用户属于某个用户群,并且系统为这个用户群配置了监控策略,那么这个用户只受该用户群下的监控策略的约束;不会去匹配其他用户群或者一般号码的监控策略。二是如果一个用户不属于任何用户群,则其匹配属于一般号码的监控策略。三是如果一个用户属于某个用户群,但是并没有为这个用户群配置任意的监控策略,则该用户匹配一般号码的监控策略。
(三)人工仲裁。在智能分析的基础上,此功能可以实现对疑似垃圾短信和加黑号码的人工仲裁功能,一方面及时从嫌疑名单中发现真正的垃圾短信发送者,另一方面能将误抓的黑名单号码及时解黑,有效保证用户短信业务的使用。
1.实现思路。一是减少投资。如果将人工仲裁工单独实现为一套独立的系统,则需要增加单独的硬件资源,增大了投资。二是统一管理,统一登录。如果是两套不同的系统,那么管理人员需要同时对两套系统进行管理,并且,对于部分系统用户,还会在同一时间登录两套不同的系统。三是仲裁实时性。如果是独立的仲裁系统,那么与现有垃圾短信监控系统中采用接口关联。垃圾短信监控系统在监控出疑似垃圾短信后,先将其生成到一个文件中,然后上传到中间服务器上;人工仲裁系统需要从中间服务器上去下载文件,然后解析文件,存储到自身系统中,最后才推送到管理页面进行人工仲裁。在这个过程中,至少会有5~10 分钟以上的延迟。
2.人工仲裁用户管理。执行人工仲裁的用户,也即是客服人员,他们的用户名以及系统使用权限都集成到现有垃圾短信监控系统中,由垃圾短信监控系统的管理用户进行管理。可以仅仅为这些人工仲裁的用户分配人工仲裁相关的权限,现有垃圾短信监控系统中的其他页面和功能他们都看不到。
3.人工仲裁实现。实现一个人工仲裁页面,在该页面上,按照短信内容对疑似垃圾短信进行审核。在该页面上,展现每条短信的主叫号码和短信内容。仲裁的动作包括:加黑、解黑。
(1)任务分流。支持多人同时审核,系统自动将待审核的消息按照帐户进行分流。每个在线的仲裁用户都可以获取到一份独立的待仲裁数据,每条消息在同一时间只会被一个用户取到。一批数据的仲裁时间为300 秒,如果超过300 秒,则这些数据自动回到数据库中,待下次或者其他审核人员获取。每个仲裁人员每次获取的待审核消息量可以配置。
(2)仲裁数据源选择。待仲裁数据源可以选择如下三种类型:一是黑名单,因为触发了监控系统中的“加黑”策略而被添加为黑名单的垃圾短信;二是嫌疑名单,因为触发了监控系统中的“加嫌疑”策略而被添加为嫌疑名单的垃圾短信;三是黑嫌疑名单,包括黑名单和嫌疑名单。
(3)人工仲裁结果查询。系统提供人工仲裁结果查询页面,可以查询经过人工仲裁后的短消息详细数据。包括:审核人员、审核时间、审核结果等。
二、垃圾短信二次放通策略功能的实现
二次放通功能可以使得被误拦的短信得以解禁,当用户从黑名单中解放出来的时候,将这些误拦短信重新下发,保证正常短信的收发及正常资费的开展。
(一)实现思路。在垃圾短信监控系统中,存在部分误拦截的数据。对于这部分数据,需要实现经过人工审核后重新下发的功能。该功能实现在垃圾短信监控系统中,单独采用一个页面实现。该功能需要短信中心配合完成。
(二)二次放通功能实现。
1.数据来源。用于二次放通的数据来源为:在垃圾短信监控系统中,被监控策略拦截、被黑名单拦截的短消息记录。由于现有垃圾短信监控系统中的拦截表数据巨大,而二次放通功能只会用到2~3天的数据,所以本期实现方式为:单独新增一个新的拦截信息表,将拦截消息拷贝一份存放在这个表中,该表的最大存储时间为3天。本次二次放通功能,使用新拦截表中的数据。
2.误拦截短信识别。提供专门的“短信特征识别”模块,该模块根据从垃圾短信拦截模块获取到的拦截信息进行一些列算法比对,识别出误拦截的短信内容同时送给二次放通模块进行处理。
3.误拦截短信提交。二次放通模块收到特征识别模块送来的消息后,根据原始主被叫号码、提交时间、短信内容等信息自动构造一条短信并通过和短信中心的接口提交给短信中心。
4.短信下发。短信中心收到从垃圾短信平台接口送来的消息后,对本消息不在进行垃圾短信鉴权,采取直接下发策略,下发流程与正常短信下发流程完全一样。
5.放通结果处理。当一条拦截消息被成功地下发到短信中心后,会在拦截表中去设置标识,表示该条拦截消息已经被二次放通过,避免下次再次查询时,查询到相同数据并且重复放通。
(三)实现与短信中心接口。垃圾短信监控系统在进行短信二次下发时,需要与短信中心之间建立连接,以便将这些需要放通的短信提交给短信中心,让短信中心将这些短消息发送给被叫号码。
1.接口实现。垃圾短信监控系统与短信中心间的接口采用SMPP 协议,用该协议中的Bind_Transmitter 和Submit_SM 这两对消息完成。由于这些二次放通的消息如果回到垃圾短信监控平台,可能会被再次拦截掉,所以,垃圾短信监控系统在提交二次放通短信给短信中心后,短信中心不能将这些消息再次转发给垃圾短信系统。
2.接口流量控制。为了避免同一时间发送给短信中心的二次放通短信量过大,给短信中心带来风险和影响,垃圾短信监控系统在发送二次放通短信时,需要做流量控制。流量控制机制有两个:一是审核人员在执行一批二次放通时,最大条数为1000条。二是可配置每秒钟发往短信中心的速度,速度范围:10~500条/秒。这样,可以对短信中心的入口进行保护,避免大流量的短信对短信中心造成冲击。另外,短信中心自身也有License 流量控制功能,从两个方面保证不会对短信中心造成影响。
3.短信中心路由配置。由于要求短信中心在收到垃圾短信监控平台提交的短信后,不能再将这些二次放通的消息转发给垃圾短信监控系统进行鉴权。所以,短信中心需要做相应的配置,根据垃圾短信监控平台登录的帐号配置是否需要发送给SMMC(进行短信鉴权)。
4.二次放通报表统计。实现一个二次放通统计报表:按日、月统计一段时间内放通条数、拦截总量、以及放通率。其中,放通率=放通条数/拦截总量。
(四)用户体验变化。由于本次二次放通功能是将之前已经被拦截的短消息再次下发,所以,就存在最终用户体验的变化。
三、结语
本项目中基于垃圾短信智能语义分析的二次放通技术为国内首创,期间针对河北省垃圾短信监控数据建立了垃圾短信典型样本库,通过对样本数据的分析研究,通过规避传统关键字监控策略的方式,重点分析垃圾短信内容中的综合特征,将其作为垃圾短信的核心判断条件,创造性实现了“垃圾短信自动审核技术”、“垃圾短信拦截策略滚动循环机制”、“策略有效性评估机制”等垃圾短信精细化治理应用模型,大幅降低了垃圾短信漏拦、误拦率;同时基于智能分析和人工辅助,误拦截短信实时二次放通技术的实现,不仅改善了短信业务体验,也直接带来短信收入的提升,取得了良好的社会效益和经济价值。