APP下载

研究构建电信网络诈骗防范预警信息平台

2020-07-26牛硕邓捷陈佳宇林宇辰李昊海

网络空间安全 2020年5期
关键词:用户画像个性化推荐

牛硕 邓捷 陈佳宇 林宇辰 李昊海

摘   要:近年来,电信网络诈骗案件逐渐趋向种类多样性、受害群体普遍性,而目前社会上的群众防诈教育存在着滞后性和覆盖面少等缺点,许多地方甚至不重视群众防诈教育,如何教育并提高群众对电信网络诈骗的防范意识是减少电信诈骗发生的关键。文章旨在推出一款能够利用个性化推荐系统,根据用户年龄、职业、文化程度等信息形成用户自定义个人画像,为群众量身订造防范电信网络诈骗的教育平台APP,从而解决传统网络与线下宣传教育出现的问题。通过Android系统构建“防诈通”电信诈骗信息聚合平台APP,利用推荐系统算法将数据进行分类并与用户画像结合实现个性化的防诈案例集,给用户提供大量与自身切合的防诈新闻,培养并加固群众的防范意识,以此来实现教育培养与提高公民防范电信网络诈骗意识的目的。

关键词:个性化推荐;Android平台构建;用户画像;数据分类

中图分类号: TP520.4060          文献标识码:A

Abstract: In recent years, the telecom network fraud cases gradually incline to species diversity and universality of vulnerable groups, and the social masses fraud prevention education lag and coverage exist shortcomings, such as less, many places do not even attach importance to the anti cheat education, how to education and raise people's awareness to the telecom network fraud is the key to reduce telecom fraud occurred. This project aims to launch a personalized recommendation system that can form a user's self-defined personal portrait according to the user's age, occupation, education level and other information, and create an education platform tailored for the masses to prevent telecom network fraud, so as to solve the problems arising from traditional online and offline publicity and education. Through the Android build via "anti cheat" telecom fraud information aggregation platform, using the recommendation system algorithm is applied to the data classification combined with user portrait realize personalized and preventing fraud case set, provide users with a large number of rich and its relevant anti cheat news, cultivating and strengthening the awareness of the masses, so as to realize the education to cultivate and enhance the citizens' consciousness of telecommunications networks to prevent fraud.

Key words: personalized recommendation; android platform construction; user portrait ;data classification

1 引言

隨着当下网络技术的飞速发展,网络已经渗透进了人们生活的方方面面。在构建一个方便、快捷的虚拟世界的同时,也随之带来一些负面的影响。网络诈骗便是在这种网络技术发展的大环境下日益猖獗。

根据公安部官方微博消息显示,尽管公安机关开展了持续不断地打击,但是受各种因素的影响,电信网络新型犯罪活动仍然快速发展蔓延,形式严峻、危害突出。在公安部刑侦局归纳出的常见的电信诈骗犯罪案件中,使用电话类的占63.3%、使用短信的占14.8%、使用网络的占19.6%。

腾讯守护者计划发布的2018年第一季度《反电信网络诈骗大数据报告》中显示,网络诈骗虽然近年来有所改善,但犯罪分子也在不断地转换诈骗手段,威胁着群众的经济财产安全。为了减少电信网络诈骗的发生,除了要求有关部门加大打击力度的同时,广大网络使用者也应该增强网络安全意识,了解并学习网络安全的相关知识,提高自己的防范能力。

群众网络诈骗防范意识的树立与预防本领的提高是打击网络诈骗的重要手段之一。宣传、加强管理、完善法律法规、加大打击力度等手段主要是通过对网络诈骗的处理来抑制网络诈骗的发生。但是,无论如何抑制打击,只要网络诈骗的主体还在,这种现象便不会彻底消失。而从群众的角度出发,加强群众对网络诈骗防范意识和本领的教育,群众便可以更好地分辨出网络诈骗,从而可以防止陷入网络诈骗当中。这种方式可以有效地减少网络诈骗的目标,使网络诈骗者无从下手,进而有效地遏制网络诈骗。然而,群众是由各式各样的个体组成的,不同个体有不同的特点。譬如,不同年龄、职业、教育程度的人,他们所接触的圈子不同,经济状况、兴趣爱好也是不同的。因此,犯罪分子必然会从这个角度入手,对不同的人群进行不同种类的诈骗。不同的群体所受到的网络诈骗威胁是不同的,通过个性化教育,提高群众网络诈骗防范意识与本领,达到加强群众对网络电线诈骗防范意识和本领的作用效果,是十分有必要且有价值的。从这点出发,尝试构建并完善电信诈骗新闻聚合教育平台,为未来对群众进行防诈教育提供一种更加合理和有效的方式。

本文设计的电信网络诈骗新闻汇集平台“防诈通”(以下简称防诈通),首先运用Scrapy爬虫技术从网络上获取大量电信诈骗类新闻,根据网上大量数据的共同点与独特属性,将获得的新闻数据根据诈骗手段、节日诈骗、诈骗对象、地区、诈骗金额、防诈标语、诈骗持续时间、各地案件数量等维度进行分类,形成专门的新闻数据库。进而使用Android Studio建立起用于展现数据的平台,并在APP上要求用户提供基本个人信息来初步形成用户个人画像,使其与系统中设定好的用户画像相匹配,再将与该画像连接的防诈新闻推送到用户的“防诈通”中,以此达到个性化推荐的效果。

2 针对性防范教育

2.1 防诈教育现状

目前社会上主流的防诈骗宣传教育方式主要有两种:一是通过自营号、微信公众号、新闻媒体等网络平台使用文字、图片、视频等方式为群众介绍最近的电信诈骗案件或提醒群众日常需要提防的电信诈骗手段;二是在现实生活中警方通过宣传标语、进入社区开展防诈宣传讲座、在银行门口安排专人为路过群众介绍电信诈骗手段等方式进行宣传教育。这两种方式都能起到教育群众的作用。然而,它们同样存在着自己独有的缺点:网络平台虽然有实时性、易获取等特点,但因为网络平台太过分散,适合某一人群的防诈新闻分散在不同平台,难以聚合获取,在目前的快餐时代,无法做到重复教育,让群众形成主观的防诈意识,达不到理想的效果;线下教育虽然能做到言传身教,让群众更容易形成防诈意识,但其有着自己天然的劣势,即受众范围小,一次宣传或许只能达到百人或千人收益,无法做到大规模的群体收益,且介于目前电信诈骗手段更新速度之快,线下教育很可能会出现宣传内容滞后,无法与时俱进的问题,并且在当今各地警力资源匮乏的情况下,线下教育在案件量多、警察任务重的地區难以开展。

2.2 推荐系统

互联网时代的出现和普及为人类提供了得以快速获取信息、分享信息的平台,21世纪的人类进入了前所未有的信息爆炸时代,而面对大量信息的冲击,人们难以在众多无用数据中筛选出对自己有用的信息内容,导致信息使用效率下降,产生信息超载的问题。

为了解决信息超载的问题,1995年3月,卡耐基·梅隆大学的Robert Armstrong等人在美国人工智能协会中提出了个性化导航系统Web Watcher,在同一会议上,斯坦福大学的Marko Balabanovic等人推出了个性化推荐系统LIRA。推荐系统的研究及运用逐渐与电子商务相结合,2003年Google开创了AdWards盈利模式,通过提取用户搜索的关键词来提供相关的广告,导致广告的点击率不断上升,提高了Google的广告收入利润,2007年Google改进了AdWards模式,改良了单词搜索关键词的方法,通过对用户一段时间内的搜索历史进行记录和分类,进行提供更为精准的个性化推荐。“百度世界大会2011”上,百度创始人李彦宏提出将推荐引擎与云计算、搜索引擎并列为未来互联网重要战略规划以及发展方向。

推荐系统是通过提取用户相关信息并对用户行为进行分析,获取用户个人偏好,并通过推荐算法为用户提供个性化的推荐服务,一方面帮助用户在大量信息中针对性地发现对自己有价值的信息,减少浏览无用信息的精力与时间,提高对信息提供平台的喜爱性与依赖性,另一方面信息能够点对点的出现在对它感兴趣的用户面前,使信息的使用率上升,实现用户与信息提供者之间的双赢。

3 电信诈骗行为分类

3.1 防诈新闻多维度分类

如今的网络诈骗类型众多,如何实现对电信诈骗信息的分类并由此实现对用户的个性化推荐是本次项目的重点。

电信诈骗有着活动蔓延性大、发展迅速、手段翻新速度快等特点。因此,电信诈骗信息数据内容庞大且复杂,难以按照一个有效的方法将其分类。模仿推荐系统算法,参考公安部近年来公布的电信网络诈骗套路,通过大量收集网络上已有数据并按照诈骗手段、主要节日诈骗、诈骗对象、地区、诈骗金额、防诈标语、诈骗持续时间、各地案件数量等方面,从多种维度将电信诈骗信息数据进行详细分类。

在众多分类维度当中,诈骗手段与诈骗对象是最基础的维度。电信诈骗,是犯罪分子通过某种诈骗手段,选择诈骗对象实施诈骗行为,导致受害人经济财产损失的动作。诈骗手段与诈骗对象会在节日维度与诈骗持续时间维度进行动态变化,如图4和图5所示。例如,某犯罪分子会在妇女节当天实施电信诈骗,因为节日的缘故,犯罪分子更青睐于选择女性作为诈骗对象,利用推销美容减肥用品或节日赠礼等手段进行诈骗,且诈骗持续时间短,因为节日的缘故会让受害人降低对诈骗的防备。可见,诈骗手段分类与诈骗对象是最基本的两种分类方式。

3.2 诈骗手段分类

根据诈骗方式的不同,可将电信诈骗粗分类为微信、QQ等社交软件诈骗;传统电话形式诈骗;短信诈骗;互联网诈骗及以路边二维码、小广告等形式的其他类诈骗。不同的诈骗方向又会根据工具的不同发展出不同的诈骗方法。例如,微信等社交工具以其方便与灵活性被人们广泛使用,微信好友、朋友圈、订阅号、附近的人等功能为人们的交流交友提供了便利的条件。然而,因为社交软件的身份隐藏性以及不能与好友面对面等特点,每个用户都可能戴着一副虚伪的面具与他人交流,因此这些社交功能为犯罪分子提供了施行诈骗的突破口。犯罪分子通过微信好友、附近的人等功能大量的散发添加好友信息,将自己的头像伪装成富豪或者美女,并精心经营自己的朋友圈,使得受害人相信犯罪分子的伪装,进而向受害人传述自己的生财之道,诱骗受害人一步步掉进被编织好的陷阱。等到受害人意识到自己受骗时,犯罪分子早已携带赃款逃之夭夭,这只是众多诈骗手段的一种。通过将网络上大量数据从简到繁、从粗到细,将如上所诉的大量新闻数据结合我国电信诈骗现状及公安部近年来公布的诈骗案件种类,把数据分类成树状图形式,如图6所示,从而针对用户进行更好的个性化推荐。

3.3 诈骗对象分类及用户画像

根据网络上搜集到的数据中的诈骗对象进行统计归类,将诈骗对象按照性别、年龄、经济条件、文化程度、职业五种维度进行分类。而在年龄上又根据该年龄段常用工具将其分为使用电话类、短信类、社交软件类以及互联网类。

对诈骗对象的分类,就是用于对用户的自定义画像的分类。通过收集网络上大量受害人的信息,经过筛选总结,发现受害人中男性比例略高于女性,而青年人在全部受害人中占比超过60%,至于在文化程度方面,占多数的是初中学历。除此之外,电话和网络诈骗是目前犯罪分子成功实现诈骗的主要工具。

通过表1中不同维度占比的大小以及维度本身权重的高低,把上述维度重新分类组合,形成人工设定用户画像。例如,常用网络的青年女性,大学本科学历,或是常用电话的老年男性,小学学历等。如此一来,形成全部用户画像,并与新闻数据相连接。通过这种方式使得之后用户在定义完自己的个人画像后,个人画像会匹配系统中已有的用户画像,系统会根据用户画像向用户的APP中推送与之相匹配的新闻信息。

4 相关技术简介

4.1 Scrapy爬虫技术

Scrapy是Python开发的一个快速、高层次的屏幕抓取和Web抓取框架,用于抓取Web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。Scrapy可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、Sitemap爬虫等。

根据四步流程进行信息爬取。(1)创建一个Scrapy项目;(2)定义提取的Item;(3)编写爬取网站的Spider并提取Item;(4)编写Item Pipeline来存储提取到的Item(即数据)。Scrapy抽取信息的基本流程如图8所示。

4.2 Android Studio

Android Studio是基于IntelliJ IDEA的官方Android应用开发集成开发环境(IDE)。除了IntelliJ强大的代码编辑器和开发者工具,Android Studio提供了更多可提高Android应用构建效率的功能,具体有九项。

(1)基于Gradle的灵活构建系统;

(2)快速且功能丰富的模拟器;

(3)可針对所有Android设备进行开发的统一环境;

(4)Instant Run,可将变更推送到正在运行的应用,无需构建新的APK;

(5)可帮助构建常用应用功能和导入示例代码的代码模板和GitHub集成;

(6)丰富的测试工具和框架;

(7)可捕捉性能、易用性、版本兼容性以及其他问题的Lint工具;

(8)C++和NDK支持;

(9)内置对Google云端平台的支持,可轻松集成Google Cloud Messaging和APP引擎。

5 数据收集与平台搭建

5.1数据收集

用Scrapy爬虫爬取网络上关于诈骗方法和诈骗手段的新闻,例如,从今日头条和新浪网等新闻网站上爬取到想要的新闻并将其标题、出版社、封面等数据用Pymysql存储到本地的MySql中,再经过人工筛选,按照制定的推荐方法建成一个新闻数据库。当然,该数据库远远不够完善,因为大量的诈骗新闻信息在网络的形式千奇百怪、良莠不齐,且没有分类。假若由公安专业部门进行收集整理,则能大大扩充数据库,提高实战性。本文在建立了数据库的基础上,进行后续实验。部分新闻数据库基本情况如表2所示。

5.2 Android平台搭建

参考当今网络上比较流行的手机新闻类客户端,使用Android Studio开发出“防诈通”这一针对易被骗人群的电信网络诈骗防范信息聚合平台,允许用户在该平台上按照性别、年龄、职业等个人信息形成用户个人自定义画像。Android Studio中自带的SQLite轻量型关系型数据库能够把用户个人信息数据存储到个人本地的数据库中。同时,将存储在MySql中的新闻数据同样设置在平台内部的数据库中,并根据用户的不同在数据库中为每条新闻贴上独特的标签。如此,Android Studio中用户所定义的对于自我的画像将与新闻数据的标签相结合,形成数据—用户标签对应的个性化推荐体系,并根据用户的个人画像向用户推送适合用户的诈骗信息新闻。

例如,在初始设定中将用户信息设置为ID:NS,出生日期:1990-3-1,教育程度:研究生的信息。点击确定后,后台会自动存储用户的个人信息,并将用户的ID体现在后面的用户信息页上。在下一页跳转界面中选择自己的职业为学生,同样,点击“开始体验”后,后台也会存储用户的行业信息。由此,后台数据库获得了用户的初步个人画像,并根据此用户画像将新闻数据库中的新闻数据以设定好的适用年龄、适用人群等属性与用户相匹配,从而实现对用户的诈骗新闻的定向投递。

6 结束语

本文中APP以个性化推荐的方式,为用户打造专属用户画像。通过大量收集防诈新闻数据并从中找寻基础属性,做到对新闻数据的多维度分类,并根据统计得到的诈骗对象维度中的不同类别、受害人占比来人工合成用户画像。实现针对性地提供最新、最常见的电信诈骗案例、手段及预防方式,达成个性化防诈信息与用户智能对接,有利于使群众提高防范电信网络诈骗的意识,了解犯罪分子的惯用手段及规律,保护自身人身财产安全。

如今智能手机是最普遍使用的电子通讯工具,同时也是公民生活中最必不可少的信息来源手段,本项目采用当前手机软件作为平台,建立“防诈通”手机APP,专门用于预防电信网络诈骗宣传及教育,时刻在群众心中敲响防诈的警钟。相信这一款软件的诞生能有力地加强防诈宣传教育,推动群众提高电信网络自我防范意识。

目前该软件还有许多值得完善和修改的地方,今后将更新相关技术,使用户画像更加立体化,进一步加强用户与新闻数据间的智能个性化连接,为未来电信诈骗案件的减少甚至杜绝贡献自己的一份力量。

参考文献

[1] 张颖. 基于用户画像特征数据集的个性化推荐算法研究[D].西安电子科技大学,2018.

[2] 王炎.数据挖掘技术下的个性化智能推荐系统设计[J].微型电脑应用,2019,35(02):119-121.

[3] 郝立明.网络诈骗犯罪治理研究[J].法制博览,2019(04):9-11.

[4] 2018年第一季度反电信网络诈骗大数据报告[J].腾讯守护者计划.

[5] 公安部公布常见电信诈骗犯罪案件[J].中国警方在线.

[6] 王璐璐,张鹏,闫峥,周晓康.机器学习训练数据集的成员推理综述[J].网络空间安全,2019,10(10):1-7.

作者简介:

牛硕(1999-),男,汉族,辽宁辽阳人,中国人民公安大学,在读本科生;主要研究和关注领域:电信诈骗。

邓捷(1999-),女,汉族,广东茂名人,中国人民公安大学,在读本科生;主要研究方向和关注领域:理化检验。

陈佳宇(1999-),男,汉族,广东广州人,中国人民公安大学,在读本科生;主要研究方向和关注领域:网络安全与执法。

林宇辰(2000-),男,汉族,江苏常州人,中国人民公安大学,在读本科生;主要研究方向和关注领域:刑事科学技术。

李昊海(1999-),男,汉族,海南海口人,中国人民公安大学,在读本科生;主要研究方向和关注领域:电信诈骗。

(本文为“2020年429首都网络安全日”活动征文)

猜你喜欢

用户画像个性化推荐
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
基于远程教育的个性化知识服务研究
基于链式存储结构的协同过滤推荐算法设计与实现
个性化推荐系统关键算法探讨
基于协同过滤算法的个性化图书推荐系统研究
移动用户画像构建研究
文本数据挖掘在电子商务网站个性化推荐中的应用
基于微博的大数据用户画像与精准营销
移动互联网下手机用户使用行为特征的研究