开源数据成锁定犯罪利器
2021-05-17沈臻懿
沈臻懿
作为信息处理的一大利器,人工智能技术在云计算和大数据的驱动下发展迅猛,并可从海量数据中获取重要的情报。即使是一些粗看起来较为寻常的开源数据,在人工智能的“火眼金睛”下亦可从中发现违法者的蛛丝马迹。
全美大搜捕的数据技术“加持”
2021年1月6日,发生在大洋彼岸的美国“国会山沦陷事件”,令世人为之愕然。正如该国国会历史学会专家塞缪尔·霍利迪所指出的那样,这一令人震惊的场面,是自1814年8月英国军队袭击并纵火焚烧美国国会大厦后,国会山在200多年间第一次被“攻陷”。
当时,正值美国国会参众两院联席会议清点确认拜登当选总统的选举人团投票结果之际,大批特朗普的支持者包围华盛顿国会山,强行闯进国会大厅,攻陷了国会大厦这一美国最具辨识度的建筑。冲击者在大厦内与美国国会警察发生激烈冲突,楼内的议员被紧急疏散,总统选举计票工作也一度暂停,最终导致包括一名国会山警察在内的五人死亡。这些冲击者在国会大厦内打砸、游荡,大肆掠抢,还破坏了大量艺术品、家具和文件。
不少现任和前任美国执法部门人士坦言,“国会山沦陷事件”实乃美国安保史上最大的失败,警方从示威者手中收缴了燃烧弹、雷管和枪支等物品。数千名国民警卫队队员到场驱散人群,并对现场进行清理。之后,美国联邦调查局(FBI)展开了针对冲击者的“全美大搜捕”。据《纽约时报》报道,涌入华盛顿并包围国会大厦的人数虽有数十万,但真正冲入大厦内的人员仅有数百人。在茫茫人海中搜寻几百名冲击者,无疑是大海捞针。为了能够将其锁定,FBI的“全美大搜捕”自然需要技术“加持”。
从开源数据中挖掘蛛丝马迹
“国会山沦陷事件”的冲击者多为美国时任总统特朗普的支持者。此前,由于推特(Twitter)等社交媒体封停特朗普账号,并封禁诸多可能存在进一步煽动暴力行为风险的关联账号,特朗普的追随者旋即将社交软件帕勒(Parler)作为推特的替代品。帕勒拥有人数众多的特朗普支持者、阴谋论者以及右翼极端主义者,发布的帖子中有着大量煽动暴力的内容。其中就包括了不少参与国会山冲击的人员和“炫耀”国会山沦陷的帖子。
互联网的高度普及,使得各类社交媒体上的开源数据成了相关情报分析的重要来源。帕勒上的这些公开帖子,即是在“国会山沦陷事件”调查中尤为重要的开源数据。面对海量的开源数据,若是文本信息,通常可利用关键词来进行检索;但对于视频、图片或地理坐标等数据,则需要借助人工智能技术,来准确找寻到所需信息。“国会山沦陷事件”后,谷歌、亚马逊网络和苹果应用商店相继取消并下架了帕勒。不过,技术专家通过对帕勒上的开源数据挖掘,已获取了约60TB容量的数据信息。其中就包括了帕勒上的每篇公开帖子,以及含100万个视频和1.5亿张照片在内总共4亿多个文件。这些文件中都嵌有GPS定位坐标、日期、时间等元数据。
较之其他一些社交媒体,帕勒并不会从用户上传的数据信息中剥离元数据,这为执法人员的案件调查和分析提供了极为有利的条件。作为信息处理的一大利器,人工智能技术在云计算和大数据的驱动下发展迅猛,其可从海量数据中获取重要情报。即使是一些粗看起来较为寻常的开源数据,在人工智能的“火眼金睛”下亦可以从中发现潜在风险。此外,通过对开源数据的挖掘以及人工智能分析,相关部门还可开展风险识别、分析、预防等网络安全方面的工作。
美国“国会山沦陷事件”中,冲击者在冲进国会大厦的同时,将许多在大厦内部拍摄的带有潜在罪证的视频和照片上传帕勒等社交媒体平台。由于帕勒上的数据皆为公开,调查人员在抓取、捕获网站平台上的所有内容并进行存档后,即可从中对元数据进行提取,并检视照片、视频的设置时间以及特定的GPS坐标,进而有助于执法部门确认这些帕勒用户在事件发生期间是否就在国会山以及是否参与了此次冲击。
除了对于已发生的事件进行调查外,开源数据的挖掘还可用于对即将发生的犯罪予以预防和制止。比如,某些不法分子为了所谓的“出名”,往往会在犯罪之前将相关信息发布在社交媒体上。若相关部门通过开源数据挖掘,并对收集到的信息进行梳理和分析,即可提前制止犯罪的发生。
持续追缴冲击者的技术之力
“国会山沦陷事件”发生后,美国联邦调查局在一份声明中称,“FBI正在收集2021年1月6日发生在华盛顿特区美国国会山及周边地区与该事件相关的数字信息和情报”。结合这一事件的调查进展情况,美国警方陆续公布了一些涉案人员的照片,其中就包括了可能导致国会山警察布莱恩·斯尼克死亡的嫌疑人照片。据照片显示,这名头戴蓝色针织帽、留有灰白胡须、身穿格纹外衣及迷彩长裤、身背双肩包的男性,因与国会山警察谋杀案有关已被通缉。结合另一段视频资料,该名男子向現场警方人员抛掷了消防灭火器,灭火器从一名警员头盔上弹起后,击中了另一名警察,并导致其向后倒地。在这些影像资料的支持下,执法部门和技术专家得以对其中的涉案人员行为进行调查,并结合人脸识别技术锁定嫌犯。正是在人脸识别技术的帮助下,美国联邦调查局锁定了在国会山沦陷当天闯入美国众议院议长办公室,并带走其笔记本电脑的嫌犯。同时,美国警方还在人脸识别技术和数字化跟踪技术的帮助下,逮捕了一名叫理查德·巴雷特的男子,正是这名被美国媒体称之为“毕哥”的冲击者,把腿跷在众议院议长办公桌上的照片在媒体上被一度疯传。
冲击事件中留下的大量数据信息,包括现场监控、互联网信息,甚至是冲击者的自拍及其“直播”等,都可为执法部门通过人脸识别技术和数字化跟踪技术持续追查国会山冲击人员提供条件。为此,美国执法部门连续发布公告,呼吁并寻求公众提供与国会山冲击者有关的信息。自当地时间2021年1月6日晚间起,FBI就在其官网、华盛顿分局官方推特以及华盛顿各公交站贴出通告和字幕,并提供了表格链接,以接受社会公众提供的数字媒体信息。
在互联网时代,尤其是各类移动端的即时通信和社交媒体较为普及的时代,全世界已被数十亿的摄像头、传感器和微处理器等覆盖。正是由于数字信息的特点,美国“国会山沦陷事件”中的各类蛛丝马迹,才得以成为数据信息被留存。因此,对数字信息以及开源数据的挖掘、人脸识别以及数字化跟踪等数字技术的应用,在此次美国国会山冲击者锁定过程中发挥出了独特的作用。
编辑:黄灵 yeshzhwu@foxmail.com