基于智慧中台的仿冒网站识别能力研究
2022-07-12□文檀鹏王莹温暖
□ 文 檀 鹏 王 莹 温 暖
近年来,电信网络诈骗已成为全社会关注的信息安全焦点问题,在干扰正常通信秩序的同时,构成了对公民个人信息与财产安全的严重侵害。仿冒网站被不法分子用来进行诈骗活动,通过引诱用户点击访问,窃取用户个人信息,盗刷用户钱财,严重影响了广大用户的正常生活和切身利益。
0 引言
为阻断仿冒网站的访问,保护政企客户企业利益,保障业务网站安全,防止人民群众个人信息、金钱等权益受损,本文对基于智慧中台的仿冒网站识别能力进行了研究,并提出相应的解决思路。
1 相关概念
仿冒网站通常指仿冒银行、运营商、网上商城等官方网站的URL网址以及页面内容,不法分子以此来窃取用户提交的姓名、身份证、银行账号及密码等个人信息,进行网上支付账号的恶意盗刷,给消费者造成巨额损失。仿冒网站识别能力即为采用相关技术,识别发现互联网上仿冒网站的技术手段。
智慧中台主要指通用能力的聚合体,通用能力可以被不同的应用调用,对能力进行复用,被誉为“数智经济新引擎”,支撑企业数智化运营和全社会数智化转型的能力基座,打造企业的“数字化劳动力”,促进全要素生产率显著提升,为数智化转型注入强劲动力。主要由业务中台、数据中台、技术中台等部分组成。业务中台主要包括订单能力、营销能力等共性的业务能力,通过跨域能力共享、组合编排,深度参与业务赋能;数据中台主要包括用户画像、交通识别等共性的数据能力,汇聚内外部价值数据,抽象共性数据能力,形成企业级可复用的数据资产;技术中台主要包括AI、区块链等共性的技术能力,以技术要素为核心,赋能业务和数据。
2 仿冒网站识别能力部署在智慧中台的意义
仿冒网站识别能力可以发现互联网上的不断变化类型的仿冒网站,但是无法被有需求的企业复用。将仿冒网站的识别能力部署到智慧中台以后,可以实现能力的复用,被不同的企业重复调用,更方便地发现被仿冒的企业网站,保护企业的利益,维护人民群众合法权益。
3 研究目的
本文的研究目的是为了研究出高效的仿冒网站识别能力,可识别出互联网上不断变化类型的仿冒网站。同时,将能力部署在智慧中台上,实现能力的便利调用,让企业主动发现更多被仿冒的网站,大力打击仿冒网站。
4 前期仿冒网站治理思路
前期互联网上仿冒网站的识别发现,主要通过流量还原的方式,还原网站流量的内容,发现仿冒网站。但是流量还原技术存在识别不及时、不全面、误判率高等问题,不能及时有效发现仿冒网站。
同时,仿冒网站识别能力是独立部署,无法被有需求的企业调用,无法快速复用发现互联网上的仿冒网站,难于快速打击网站仿冒活动。
5 仿冒网站治理面临的问题
(1) 仿冒网站识别不及时
流量还原技术需要在每个机房出口部署流量还原设备,网络信息技术发展导致机房带宽一直在扩容,部署设备需要工程建设周期,无法实时跟上带宽扩容的速度,会漏掉带宽未部署还原设备的仿冒网站,导致监测不及时。
(2) 流量识别不全面
流量还原技术需要同时抓取一个会话的上行和下行数据包才能完整还原访问的内容,现网存在会话上下行的流量包从不同链路甚至异地返回给用户的情况,尤其是国际链路的访问存在上下行数据包从异地不同链路回来的情况,导致无法还原网站内容,致使不能全面还原、识别仿冒网站的内容。
(3) 流量还原成本高
每个机房出口都需要部署流量还原设备,由于机房出口众多,导致部署大量设备,成本高。
(4) 仿冒网站花样翻新
金融、交通、电子商城等部分行业网站不断被仿冒,仿冒网站类型花样翻新,不断出现新的仿冒网站。
(5) 仿冒网站不易识别
面对不断变化的仿冒网站,人民群众不易识别不同类型的网站,会发生上当受骗的情况。
(6) 缺乏反钓鱼、反诈骗的利器
由于技术限制,大部分企业单位,不具备自行识别发现互联网上被仿冒业务网站的有效手段。
(7) 仿冒网站不易封堵、阻断
仿冒网站被投诉后,大部分企业单位也难于进行网站封堵阻断,致使企业利益受到损失。
(8) 识别能力无法被复用
仿冒网站识别能力独立部署,能力无法复用,无法被有需求的企业调用,致使企业利益受损。
6 解决思路
(1)仿冒网站识别能力更新
为解决上述问题,本文研究了一种先进的仿冒网站识别能力,通过采集识别全网的海量网络域名信息,利用大数据分析、人工智能算法等技术,对疑似仿冒网站内容进行下载,通过文字、图片等过滤策略,能够识别发现一定特征的仿冒网站。并可对仿冒网站进行封堵,阻断对网站的互联网访问,使手机、电脑终端无法打开违规网页,保护企业利益,防止人民群众个人信息、金钱等权益受损。
(2)智慧中台复用能力
为方便能力的复用,使各个企业调用便利,将此能力进行微服务化,采用微服务应用架构,部署在智慧中台,即可开展能力的重复调用。智慧中台部署的仿冒网站识别能力具备高并发、可扩展、高容错、分布式等特征。调用方式可以通过API、SDK、文件类等方式实现。
政企客户的应用系统可以通过调用仿冒网站识别能力,将正规网站信息发送给中台能力进行模型训练,中台能力应用大数据、人工智能等算法,进而识别发现仿冒网站,阻断仿冒网站的访问。
(3)发现新型仿冒网站
面对仿冒网站不断变化类型逃避识别的猖獗行为,智慧中台能力可发挥数据源全面、域名内容过滤策略多样、识别算法先进等优势,每天识别处理几十Tb、上千亿个互联网网站信息,无论仿冒网站仿冒类型如何变化,都能从互联网中识别发现,并对其实施全部封堵阻断。
图2 智慧中台能力调用流程
智慧中台仿冒网站识别能力可发现仿冒金融、电子商城等类型的新型仿冒网站。这些仿冒网站以功能升级为幌子,要求用户输入姓名、身份证号、银行账号和密码等个人信息,从而非法窃取用户信息,盗取账户资金。
7 应用场景
基于智慧中台的仿冒网站识别能力可应用在各行各业的政企客户,识别发现出仿冒金融、政府机构、交通、电子商城等各行业仿冒网站;也可以应用于企业的业务推广,识别发现仿冒业务网站的仿冒网站,保障业务推广。
同时,将仿冒网站进行封堵,阻断网站访问,可维护政企客户企业利益,保障业务网站安全,避免人民群众权益损失。
8 创新点
(1)快速发现。智慧中台仿冒网站识别能力可实时提取全量用户访问网站大数据中的域名链接,能够在用户访问钓鱼网站时及时发现,可以解决监测不及时的问题。
(2)监测全面。全量用户访问网站大数据中含有全部的域名访问链接,避免了流量还原技术无法同时抓取到会话上下行包,无法还原全部访问网站的问题,可以解决监测不全面的问题。
(3)成本低。智慧中台仿冒网站识别能力无需在每个机房部署流量采集还原设备,只是在智慧中台侧集中部署仿冒网站识别能力,可以解决成本高的问题。
(4)准确性高。通过对用户访问网站的大数据进行分析,关联域名、内容等多维特征对仿冒网站进行识别,能够准确识别仿冒网站,可以解决误判率高的问题。
(5)能力复用。部署在智慧中台可以实现能力的重复调用,将能力的功能充分发挥出来,发现各行各业的仿冒网站。
9 应用效果
通过研究表明,应用智慧中台仿冒网站识别能力可以提升仿冒网站发现率。应用智慧中台仿冒网站识别能力之前,采用流量还原技术发现仿冒网站。同时,大部分企业客户由于技术手段限制,无法识别发现仿冒网站,只能依靠客户投诉来了解。应用智慧中台能力开展打击仿冒网站之后,可以识别发现仿冒银行、购物网站等新型仿冒网站,涵盖金融、电子商城等各行各业,月均仿冒网站发现率提升了9倍。
仿冒网站发现率=(应用中台能力之后发现的仿冒网站数量-应用中台能力之前发现的仿冒网站数量)/应用中台能力之前发现的仿冒网站数量=(500-50)/50=9倍
10 结语
为打击仿冒网站,维护网络安全,本文进行了对仿冒网站识别能力的研究。同时,为了更好地进行能力的复用,节约建设成本,提出基于智慧中台开展能力的复用推广。利用这种技术可以更好地识别发现仿冒网站,重拳打击电信网络诈骗,维护清朗网络空间。■