大数据技术在记录刑事调查中呼叫数据记录的应用性研究
2018-11-15林强林金山
林强 林金山
摘要:不断增长的犯罪率一直是每个国家发展过程中的最大障碍之一。近年来随着大数据技术不断地发展,能有效帮助解决刑事调查中出现的各类问题。文章描述了使用大数据技术分析呼叫数据记录方案的需求,通过对嫌疑人的呼叫数据记录进行分析和处理,找出嫌疑人之间的各种联系,并产生其分析结论作为输出,有效地促进了公安部门的办案效率。经理论分析可得该方案具有很好的效果和推广价值。
关键词:呼叫数据记录;大数据技术;刑事调查;犯罪率;信息安全
中图分类号:TP311.13 文献标识码:A 文章编号:1009-3044(2018)20-0003-02
1 背景
呼叫数据记录CDR (Call data record)由各个电信公司通过使用各种呼叫监控应用程序产生非常大量的信息,CDR记录了各个用户的通信(如短信、通话时间、通话内容等)中的细节而产生的数据记录。一般来说,它是具有4V(Volume容量,Variety多样,Velocity速度,Value价值)特性的数据[1]。CDR不仅数据量庞大,而且数据和结构多样化,还实时生成的速度超出任何计算。值得注意的是CDR包含了巨大的信息价值,常见的CDR主要由以下几部分组成,见表1。
当一件案件发生后,在警方记录和案件证据不足情况下,嫌犯的CDR对案件突破有很大的促进作用。本文中是利用这些数据来分析犯罪嫌疑人的CDR利用一定的算法,来发现罪犯。
2 研究内容
利用犯罪嫌疑人的呼叫数据记录(CDR),以便产生解决犯罪的线索。该方案不仅分析CDR,而且还利用各种CDR之间的各种模式,从而在犯罪解决方面产生显著结果。在实施阶段和部署阶段之前需要解决许多挑战。其中一个主要挑战是数据机密性问题,本方案采用了基于用户数据加密和隐私保护的基础下进行分析和处理的。
传统的获取和分析CDR的一般程序包括:向服务提供商请求CDR,然后将这样获得的CDR移交给进行分析的受过培训的专业人员,最后经过人工分析后,结果可能会得出一些有意义的结论,有助于警方向前迈进。在解决此种方法中存在的问题以及主要缺点,其目标是确保整体过程在时间、效率、努力、可扩展性和准确性等方面取得重大进展,通过使用大数据和数据挖掘的概念来实现这一目标,以重新组织呼叫记录并提取重要的信息,这些信息可以作为案例破解者使用。
3 方案框架
设计方案在以实际分析需求为依据[2],设计一款CDR方案,主要包括两个阶段:
在第一阶段,反犯罪要求上级机关处理各嫌疑人手机号码的CDR。 这些请求经过处理后从全局CDR中提取所需数据。公安部门根据实际需求向通信部门发出嫌疑人CDR数据,即为Request阶段;Process阶段主要是通信部门在接到公安部门的数据请求后进行身份核实和授权的工作;Extract阶段主要是指通信部门根据公安部门的需求从用户CDR数据中提取出所需的CDR数据;Generate阶段主要内容为将普通的CDR数据进行加密处理,设置陷门;Send阶段主要工作为将Generate阶段生成的特殊格式数据通过专属通道传输该公安部门。
在第二阶段中,根据反犯罪团队输入的标准和疑问,方案及时处理提取的CDR。 在此之后,各种算法以多种方式工作,以便生成可能指示更真实的正确方向的挖掘输出。
此阶段的工作主要是针对数据使用者(公安部门)。当公安部门(反犯罪部门)获取到所請求的数据后,通过私有密钥进行对该CDR数据解密操作。即Decryption阶段;Cleaning阶段主要是对第1步骤解密的CDR数据进行清洗和格式化,对一下不需要的指标进行删除操作;Establishment阶段的主要工作内容为建立统一格式的CDR专用数据库,建立数据库的作用主要是为了提高数据分析的准确性;Multi-analysis阶段主要内容为对第4步骤的数据从专属数据库中读取后进行多维分析和模型分析,其该对阶段还包括对数据训练,从第4步中读取的数据进行模型的训练;Result阶段指分析结果得出。该方案不仅节省了大量的时间和人力,而且还提供了准确和适当的结论或推论的保证。
4 理论分析
上述方案的整体处理流程从CDR数据的请求,数据处理到最后的分析,并得出结果。参考图3可以更好地理解这一点。全局CDR通过使用MapReduce技术进行存储,该技术将文件分割成大块并将其分布到群集中的节点上。数据存储在键值对中,可以用数学方式表示如下:
步骤1:从全局CDR中提取信息,全局CDR存储在HDFS中,HDFS是一个分布式,可扩展且可移植的文件方案,用Java编写,用于Hadoop框架。所请求的手机号码从该文件方案中提取,并存储在一个单独的CDR文件中,该文件包含仅限于这些号码的CDR。
步骤2:将日志格式的CDR文件转换为数据库格式CDR文件为日志格式,因此需要转换为数据库格式以提供数据汇总,查询和分析。 因此,使用Java API提取关键数据并将其存储在Apache Hive数据仓库中新创建的Hive表中。这可以通过使用MapReduce算法轻松实现,其中MapReduce算法的输入是键值对
步骤3:对此数据执行分析并生成结果数据由Apache Hive支持进行分析。 根据受害者和嫌疑人之间的通话时间,在单个IMEI号码上使用两张SIM卡,事件发生前后嫌疑人的最后位置进行分析,以及事件的当前位置。这种分析可以通过嵌入在Apache Hadoop中的Java API来实现,该API将基于所需标准触发查询并且涉及基于作为输入给出的移动号码的数量以及它们之间的通信的计算。 然后将最可疑的个人的最终结果作为输出。[3]
通过与现有方案进行性能分析和对比,检验本文提出的方案的有效性。在本次分析中主要是从技术、经济、管理角度进行分析比对。Raj Kumar Vishwakarma提出的方案中分析各个CDR,通过利用联系人之间的人际关系的密切程度,从而帮助防止恐怖主义[3]。Huiqi Zhang提出方案中通过使用亲和力模型分析他们各自的数字的CDR,预测两个电话号码之间的社会联系。 这些方案已根据以下参数进行了比较。[4]
(1)技术效率,即给定方案产出的有效性。通过时间复杂度(Time Complexity)和空间复杂度(space complexity)进行比较。
(2)资源效率,考虑到实施该方案所需的成本(cost)以及在多大程度上将效率降至最低的经济效率。
(3)管理效率,即方案可以轻松处理或维护。
5 结论与展望
大数据以得到各个领域的高度重视,包括安全,医疗保健,改善科学研究以及了解客户行为。本文主要是以信息安全角度出发,从呼叫数据记录(CDR)提出一种可行的方案。分析和挖掘出CDR的重要价值,使其最大化其利用率。旨在通过使用大数据技术来应对各种各样的犯罪。为公安部门提供一种办案有力的工具。同时也促进了整个社会安全稳定的发展。经过理论分析和与现有的方案进行对比得出本方案具有良好的效果,具有实际可行的效果。在未来的研究中将不断地加大实验为主,加快方案实施。为整个社会的平安做巨大贡献。
参考文献:
[1] Gabi Kedma. Analyzing users' web surfing patterns to trace terrorists and criminals, Intelligence and Security Informatics (ISI), pp. 143-145, June 2013.
[2] Shams Zawoad; Ragib Hasan, Digital Forensics in the Age of Big Data:Challenges, Approaches, and Opportunities, HPCC-CSS-ICESS, pp.1320-1325, August 2015.
[3] 吴威.公安内网敏感信息安全监管的实现方法[J].网络安全技术与应用,2018(2):116-117.
[4] 韩欣毅. 特大型城市网络信息安全监管研究[D].上海交通大学,2013.
[5] 缪金祥.大数据时代公安机关网络舆情的管控[J].新疆警察学院学报,2016,36(2):20-23.