大数据时代计算机取证技术的新发展*
2019-02-13刘三满刘荷花
刘三满,刘荷花
(1.山西警察学院,山西 太原 030401;2. 太原学院,山西 太原 030032)
技术改变世界。在云计算、大数据、物联网、人工智能迅猛发展的今天,大数据共享和开放给人们带来前所未有的便利,大数据已经成为整个社会运行的基础资源,改变着人们的生产、生活甚至思维方式。大数据对计算机取证领域的波及,不可避免,而且影响直接、深刻。
1 大数据的定义、构成、特征、技术、思维、应用
1.1 大数据技术定义
大数据(big data)技术指:从数据规模巨大及查询分析复杂的巨量数据中,在合理时间内,快速撷取、管理、处理、并整理有价值信息的技术。
哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”
1.2 大数据构成
大数据包括交易数据和交互数据。
1) 海量交易数据:交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。
2) 海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等。通过这些数据,可以告诉我们未来会发生什么。
1.3 大数据特征
“大数据”的显著特征可以用4个V来总结:
1) 大量化(Volume):量比较大,用户每秒就要进入很多数据, PB化是比较常态的情况。
2) 多样化(Variety):海量数据有不同格式,常见的有结构化数据、半结据化网页数据、非结构化视频音频数据。数据类型繁多,包括网络日志、音频、视频、图片、地理位置信息等等。
3) 快速化(Velocity):和传统的数据挖掘技术有着本质不同,大数据存在时效性,业内有1秒定律,要求快速处理得到结果。
4) 价值密度低(Value)。大量的不相关信息,不经过处理则价值较低,属于价值密度底的数据。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
1.4 大数据技术
大数据技术主要有数据采集、数据存储、数据分析与数据挖掘。
1) 数据采集:大数据采集并发数高,有可能同时会有成千上万的用户访问和操作。
2) 数据存储:采集端会有很多数据库,但要对海量数据进行有效分析,应将这些数据集中到大型分布式数据库,在导入基础上,将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层进行清洗、转换、集成,最后加载到数据仓库或数据集中,成为联机分析处理、数据挖掘的基础。
3) 数据处理:利用分布式数据库或分布式计算集群,对存储的海量数据进行普通分析和分类汇总,以满足常见的分析需求。
4) 数据挖掘:对现有数据用各种算法计算,起到预测(Predict)效果,实现一些高级别数据分析需求。
1.5 大数据思维
1) 不是随机样本,是全体数据
以前通常随机采样。在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,全体数据。
2) 不是精确性,是混杂性
大数据时代,不执着微观层面精确性追求,不需要对一个现象刨根问底,强调数据的完整性、混杂性和宏观层面拥有更好的洞察力和接近事实真相。
3) 不是因果关系,是相关关系
在大数据时代,我们不再偏执基于假设基础上对因果关系的追寻,不是所有的事情都必须知道现象背后的原因,而应该寻找事物之间的相关关系。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指一个数据增加时,另一个数据值很有可能也会随之增加。相关关系强,一个相关链接成功的概率会很高。建立在相关关系分析法基础上的预测是大数据的核心。相关关系也许不能准确地告诉我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。
1.6 大数据应用
大数据对社会经济生活产生的影响,既有生产力层面技术层面的影响,更有生产关系层面的影响。既有信息通信产业方面的影响,更有重构很多传统行业方面的影响。
1) 大数据在商业方面的应用,比如:沃尔玛通过数据挖掘重塑并优化供应链,淘宝通过对海量数据的掌握和分析,为用户提供更加专业化和个性化的服务。
2) 大数据在社会建设方面的应用,比如:智能电网、智慧交通、智慧医疗、智慧环保、智慧城市等的蓬勃兴起,都与大数据技术与应用的发展息息相关。
3) 大数据在网监、刑侦、经侦方面的电子数据取证应用,比如:政府在公安、海关、税务等部门,都有大量的电子数据取证业务需求。公安系统的取证应用,向刑侦、经侦等其他警种和基层双向延伸;检察院、工商、税务、海关、食药监、证监等行业的电子数据取证应用,也持续向深度应用和基层方向延伸。
2 大数据时代计算机取证的几种主要方法和技术
2.1 数据搜索
数据搜索可以分为数据库数据搜索、互联网数据搜索和电子数据搜索三类。
1) 数据库搜索:依托已有的各种数据库和各种社会行业数据库,在封闭环境中进行库内搜索。常用的数据库主要有:公安机关自有八大系统数据库、检察机关自有数据库、社会行业数据库、政府数据统一开放平台、专业的“数据超市”等。
2) 互联网搜索:对开放的海量互联网数据进行搜索,可以将与案件或嫌疑人相关的关键词输入互联网,用搜索引擎技术(search engine) 进行搜索,并根据互联网反馈信息,进行多次搜索分析,精准查找到关键信息。还可以利用网络平台,主动征集案件有关信息。如利用微博公众号发布通缉令,征集与案件有关的线索。
3) 电子数据搜索:是对已获取的海量电子数据中查找、提取与案件有关的数据,采取恢复、提取等手段,以进一步筛选,获取与案件有关的数据信息。
2.2 数据碰撞
数据碰撞指:通过专门的计算机软件,对两个或两个以上的数据库、数据集进行碰撞比对,对由此产生的重合数据、交叉数据进行深度分析。
数据碰撞一般步骤如下:第一步,确定查找对象。第二步,根据查找对象,确定一定时空范围的相关数据集。第三步,对选取的数据集,用能够直接指向对应的人或物的身份证号、姓名、手机号、账号、车牌号、手机串号等带有唯一性特征的“标识数据”,进行碰撞比对,碰撞匹配出的具有关联性或者同一性的“节点数据”,便是可疑目标数据。第四步,根据案情对节点数据进行分析研判,获取更多线索。
大数据时代计算机取证实务中,数据碰撞常见的类型有话单数据碰撞、轨迹数据碰撞、交易数据碰撞等。
2.3 数据挖掘
数据挖掘(data-mining)是大数据的核心技术,精髓在于对海量数据分析,发现事物、现象背后所隐藏的深层次规律。数据挖掘需要依靠统计学、人工智能、机器学习、数据库技术、并行计算、分布式计算等多种技术。数据挖掘的技术性较强,一般需要运用专门分析软件。如手机取证软件、邮件分析软件、话单分析软件等。数据挖掘主要分析技术有:
1) 关联性分析:凭人类经验可以看出事物之间显而易见的关联,数据挖掘则能够将一些隐含的、甚至常理无法理解的关联关系找出来。
2) 分类分析:分类分析是根据数据特征,为每个类别建立一个模型,根据数据属性将其分配到不同组别。
3) 聚类分析:将具有相似性的数据聚集在一起。
4) 时序分析:找出数据在时间上所呈现的规律。
5) 异常分析:找出明显不同于既定模式的数据。
2.4 数据画像
在过去,对犯罪分子特征的描述,来源于个案中犯罪现场、物证、行为证据,结合主观经验判断。在大数据时代,可以通过“数据画像”。
“数据画像”指对侦查机关的数据库数据、社会行业的数据库数据、大数据公司的用户数据、个人电子设备数据,通过大数据智能挖掘和人工分析研判,将嫌疑人的碎片数据收集整合,对嫌疑人的身份信息、行为轨迹、消费习性、经济状况、家庭关系、兴趣爱好、人际交往等特征,以数据形式表现出来。如:原平市某财会人员贪污案。
2.5 犯罪网络分析
犯罪活动也是一种社会活动,往往具有组织化、团伙化的群体性特点。现在很多犯罪分子进行网络联系,留下了数据痕迹,可以通过数据挖掘技术,分析他们的话单数据、社交网络数据、即时通讯数据、邮件来往数据等还原出犯罪网络关系图,自动分析犯罪成员间的互动关系,识别出犯罪组织中的核心成员、一般成员,以他们为突破口,进一步挖掘犯罪网络关系。
2.6 犯罪热点分析
“犯罪热点分析”,指通过对重点地区的历史犯罪数据,将地理空间特征与时间特征相结合,运用大数据算法,探索犯罪活动的时空模式特征,分析犯罪热点、犯罪密度在时间上的变化趋势和规律,并对该地区未来犯罪活动的发生概率进行预测。
各种网络与信息安全事件以及涉信息网络违法犯罪行为越来越多,因此,计算机取证也必将面临许多新技术和新问题需要加以解决或克服。同时,这也将促进计算机取证在理论、技术、工具和标准规范上的不断发展和应用。