基于弱关联挖掘的网络取证数据采集系统设计与实现
2017-02-27许学添邹同浩
许学添,邹同浩
(广东司法警官职业学院 信息管理系,广州 510520)
基于弱关联挖掘的网络取证数据采集系统设计与实现
许学添,邹同浩
(广东司法警官职业学院 信息管理系,广州 510520)
对海量网络日志和服务器数据进行数据挖掘,获取网络取证,在分析犯罪证据方面具有较大的应用价值;传统的数据采集系统,主要增加对网络取证数据进行滤波处理模块,增加采集系统采集的准确率,存在采集时间长、效率低的问题;提出基于弱关联挖掘的网络取证数据采集系统设计方法,对网络取证数据采集系统的总体设计描述与技术指标分析;并以此为基础,设计基于弱关联规则特征提取的网络取证数据挖掘算法,实现网络取证数据的准确检测和采集;在嵌入式Linux平台上进行网络取证数据采集系统的软件开发和系统设计;实验结果表明,采用该系统对网络日志和服务器数据中犯罪证据进行取证采集,其可靠性较高,取证数据采集精度高于传统方法,展示了较好的应用价值。
数据挖掘;网络;犯罪证据;系统设计
0 引言
随着网络信息技术的发展,网络犯罪呈现上升趋势,网络犯罪突出表现为经济犯罪、电信诈骗犯罪、以及与财产相关的网络盗窃类犯罪。网络犯罪突出的特点是需要通过网络银行转账和网络聊天工具交流等方式,实现犯罪的预备、犯罪实施和赃款转移等[1-3]。可见,网络上的犯罪都会留下一定的数据信息,对海量的网络数据进行数据挖掘,比如对网络中的日志,服务器数据进行优化挖掘,实现对网络犯罪取证,运用数据挖掘算法,提高网络犯罪的侦查和证据固定的效力[4]。因此,需要进行网络取证数据采集系统设计,结合数据挖掘算法,实现网络犯罪证据信息的分析和处理,对预防犯罪、惩治犯罪都具有较好的应用价值,也出现了很多好的方法[5-6]。
其中,文献[7]提出一种基于链路信息流自相关波束形成的网络服务器数据挖掘算法,并结合取证信息的先验特征,进行网络犯罪证据的自适应特征匹配,提高了数据挖掘的准确性,但是该算法计算开销较大,在系统集成设计中需要占用大量的存储空间,犯罪证据分析的实时性不好。文献[8]提出一种基于严平稳离散滤波的网络取证数据采集和检测算法,通过对网络犯罪信息相关数据嵌入到页面后会紧跟请求采集到链路信息流,结合防火墙检测实现对犯罪证据的可靠性取证和挖掘,提高了数据挖掘的精度,但是该方法需要大量的先验知识作为指导,当网络取证信息的先验知识缺乏下,数据挖掘的准确度和置信度不高。
针对上述问题的产生,提出基于弱关联挖掘的网络取证数据采集方法,并结合32位VXI总线技术,在嵌入式Linux系统下,进行网络取证数据采集系统的开发设计,实现对网络取证数据的计算机操纵的模块化自动采集系统设计,再进行数据采集系统的软件开发设计,实验结果证明,本文设计的网络取证数据采集系统,具有一定的优越性能。
1 网络取证数据采集系统的总体设计描述及技术指标分析
1.1 网络取证数据采集系统的总体设计描述
为了实现对网络取证数据采集系统设计和犯罪证据挖掘软件开发优化,分析软件系统的总体结构模型,网络取证数据采集系统是面向网络数据,比如日志、服务器数据等进行数据挖掘和特征检测的核心算法设计基础上,犯罪证据挖掘和取证数据采集软件是建立在对犯罪证据相关信息的特征采样和控制参量的信息输入模型上,结合数据挖掘算法和信息处理系统在嵌入式Linux系统上进行系统的软件开发和设计[9-10]。采用VXI总线技术进行网络取证数据采集,嵌入式系统的总线数据采集采用的是IEEE488.2标准下的Bus采集机制,系统采用LabWindows/CVI进行数据回放,采用嵌入式Linux系统构建网络取证数据采集系统的数据输出总线和核心控制模块,实现程序加载和数据挖掘。
网络取证数据采集系统的功能模块,主要由引导程序(BootLoader)模块、Linux内核模块、文件系统的控制模块等组成。通过研究海量的网络日志和服务器数据的犯罪相关信息挖掘模型,在主机agent发送的各种监测数据是构建一段业务流进行海量的网络日志和服务器数据的犯罪相关信息监测,通过旁路方式捕获计算机中主要负责数据收发的报文长度等信息特征,对用户的行为特征进行专家系统分析,进行海量网络日志和服务器数据的犯罪相关信息特征挖掘,在海量网络日志和服务器数据犯罪相关信息挖掘过程中,用户终端节点通过通信模块收到服务请求后,监控模块负责提供服务器端的底层的通信机制,海量的网络日志和服务器数据中的犯罪相关信息挖掘流程如图1所示。
图1 海量的网络日志和服务器数据的犯罪相关信息挖掘模型
从图1可见,主服务器节点收到网络日志的报文序列P=(p1,p2,…,pn)后,业务流段Qi和Qi+1之间存在两个属性值时,说明存在嫌疑数据信息,采用频繁项集观测方法分析用户行为属性样本Xi至各类属性的状态特征Zj的匹配度,由此进行犯罪证据的固定和采集,用户应用层软件,通过对网络取证数据采集的输出记录、网络取证数据采集系统的底层通信协议进行传输控制。在Linux内核下的引导加载程序(Bootloader)连续地发送到主控计算机,主控机Linux操作系统对ARM硬件平台的移植可以连续的读出数据,并中断网络取证数据采集系统的VXI总线数据溢出过程。设定总线数据传输速率为40Mbyte/sec,进行网络取证数据采集系统的VXI总线数据模块化结构设计,RAM将存储预触发数据过底层从局部总线接收数据。根据上述分析,得到本文设计的网络取证数据采集系统的实现框架如图2所示。
图2 网络取证数据采集系统的实现框架
1.2 网络取证数据采集系统技术指标分析
本文设计的网络取证数据采集系统设计部分主要为软件设计,其中,取证数据挖掘是软件实现的核心,数据挖掘软件共分为4个层次,分别为:
1)Linux内核下海量网络日志和服务器数据引导加载程序(Bootloader)。
2)构架HPE1485A/B频谱分析模块,在VME总线传输缓存空间中构架文件系统内核(LinuxKernel)。
3)在采集过程中,HPE1433A通过文件系统(FileSystem)对取证数据进行计算机识别模式下的专家系统特征分析和识别。
4)使用Qt/Embedded作为GUI,方便数据共享和进一步处理数据,构建用户应用程序(Application)。
根据上述层次设计分析,得到本文设计的网络取证数据采集系统技术指标描述为:采样通道为8通道同步犯罪信息监控数据采样;结合32位VXI总线技术,输出数据的采样幅度为ROMFS,提供对接口卡的I/O操作;MXI总线控制的D/A分辨率为12位;网络取证数据采集的采样率>200kHz;编程语言具有I/O控制库的兼容功能。
根据上述总体设计描述和功能指标分析,结合改进的数据挖掘算法,进行网络取证数据的采集系统设计。
2 数据挖掘算法描述
网络取证数据采集系统的核心在于对海量的网络日志和服务器数据的有效挖掘,实现对犯罪特征数据的准确提取和检测,提出基于弱关联规则特征提取的网络取证数据挖掘算法,采用三元组形式构建的网络日志和服务器数据交互和信息存储的本体模型为:
(1)
(2)
构建网络取证数据分布的Wigner-Ville特征空间,在Wigner-Ville分布空间中进行数据信息流的相空间重构,得到重构的相空间模型为:
(3)
(4)
在频率分辨率固定的情况下,对网络日志中的犯罪取证数据进行可靠性挖掘目标函数构建,为:
(5)
式中,μik为时频分布属性集合,dik为采样的海量犯罪取证数据样本xk与Vi的测度距离,为:
(6)
在重构的相空间中,网络取证数据的若关联规则满足:
(7)
通过对上述目标函数求最优解,得到目标函数的极值为:
(8)
(9)
在上述目标函数的优化解的指导下,基于弱关联规则特征提取进行数据挖掘,得到网络取证数据挖掘的响应特征解向量为:
(10)
(11)
3 系统软件设计与优化实现
把上述设计的基于弱关联规则特征提取的网络取证数据挖掘算法加载到软件程序中,在嵌入式Linux平台上进行网络取证数据采集系统的软件开发和系统设计,为了实现Linux操作系统对ARM硬件平台的移植,在VisualDSP++4.5中,使用Qt/Embedded作为GUI开发网络取证数据采集系统的犯罪证据挖掘的可视化的操作界面,由此建立软件的开发环境。
通过地址指针指向网络取证数据采集系统的VXI总线数据的首址,程序首先将网络取证数据采集系统的VXI总线数据首址赋给地址指针,然后进入循环体,总循环32次,如果有数据需要传送就会在DATA线上出现数据。在CMD线上发送的CMD命令,CAN初始化后,当CAN接收到一个26个基本命令,采用DIP封装,可以直接通过CMD线上的CMD设置SDICON寄存器,根据控制指令决Linux内核源码目录的kernel。在SDCLK寄存器设计中,采用MVB总线控制技术,写32位命令到SDICmdArg寄存器,引导加载程序,网络取证数据采集系统的犯罪证据挖掘文件系统配置和编译过程代码描述为:
BusyboxSettings--->
SDICONissettotheclockandinterrupt---> [*]Don'tuse/usr
Waitingfor74clocktobeusedtoinitializeSD
{
*s=RcvByte();
Ack_I2C(0);
S++;
(Driverflowinterfacefunctionopen) --->
(/home/SecureDigitalMemory/nfs)DatatransmittedontheDATAline
SendByte(sla);
if(ack== 0)return(0)//输入SendByte执行目标机的代码编译。
通过上述代码设计实现了数据编译和寄存,在上述进行了网络取证数据采集系统的犯罪证据挖掘文件系统配置和编译的基础上,开发数据端口,犯罪证据挖掘指定HP E1433A所使用的数据传输通道为局部总线和VME总线的混合传输的异步通道,数据采集系统的应用软件设计重点在于对HP E1433A和HP E1562E的软件编程,根据具体的测试需求,设置采集参数,选择UI界面进行集时间等参数设置以及相应的数据传输模式、数据端口设置等。软件实现过程描述如图3所示。
图3 软件实现流程
在所有采集参数配置成功后启动对网络取证数据的采集,读取HP E1562E实际完成的数据记录量,代码为:
class Read E1562E HP Actual completion data records: public vpApp
{
public: SDICmdCon () {}; //构造寄存器的特殊标志
~myApp Unsigned char ZLG () {}; //析构函数
:initialize Create collection channel group (“vp”)
//virtual bit IRcvStr(uchar sla Custom Function ZLG7290_GetKey ()::Key key, int mod) //myApp类自定义
private: uchar suba //自定义循环读取HP E1562E
初始化静态变量(static variables),采用简单的类(single classes)提示用户正确的设置参数信息,在/lib目录下建立会话、传输序列,实现网络取证数据采集系统设计和犯罪证据挖掘,对挖掘输出数据生成一个rootfs.yaffs文件,通过VME总线传送数据到主计算机,建立起了网络取证数据采集系统的犯罪证据挖掘的根文件系统,通过上述软件设计,实现了基于弱关联挖掘的网络取证数据采集系统优化设计。
4 实验分析与性能对比
为了测试改进的网络取证数据采集系统在网络犯罪证据数据挖掘与采集方面的性能,进行系统调试和仿真实验。实验中,测试的数据样本来自于海量的网络日志数据和服务器数据,采用Matlab数学编程工具进行海量网络日志和服务器数据中,犯罪相关信息挖掘模型的建立,在程序设计的基础上,采用s3c2440_adc_open()函数进行海量网络日志和服务器数据犯罪取证数据挖掘的程序加载,以此进行数据挖掘和网络取证数据的采集仿真。设置实验环境:初始采样频率为1.25 Hz,截止频率为14 kHz,数据采样的最大误差为0.04 dB,根据上述参数设定,利用FrameBuffe数据回放函数库作为底层数据采样的接口,程序安装完成后,进行原始数据采样,得到在网络日志和服务器中待挖掘的数据样本时域波形如图4所示。
图4 原始数据样本时域波形
以上述数据样本为测试研究对象,进行网络取证数据的挖掘仿真,采用本文设计的弱关联规则特征提取算法进行数据挖掘,并在本文设计的软件系统中实现数据回放,得到网络犯罪取证数据在时频面的分布亮点轨迹如图5所示。
图5 网络犯罪取证数据在时频面的分布亮点轨迹
从图可见,采用本文设计的网络取证数据采集系统进行网络犯罪证据采集,具有较好的数据识别和甄别能力,通过弱关联规则特征提取,提高了数据挖掘的抗干扰性能,网络犯罪证据数据在时频特征空间内的亮点轨迹分布明显,说明采集精度较高,准确性较好。为了对比性能,采用本文设计的数据采集系统和传统方法进行对比,以网络取证数据的采集精度为测试指标,得到对比结果如图6所示。
图6 性能对比
从图可见,采用传统方法时,其采集精度约为72.3%,且随着信噪比的增加,精确度增长缓慢;采用本文方法进行网络取证数据采集时,其精度约为95.4%,相比传统方法,精确度提高了约23.1%,证明本位方法性能较好,优于传统方法。
5 结束语
针对传统的采集系统,数据采集不准确,精度低的问题,提出基于弱关联挖掘的网络取证数据采集系统设计方法,进行网络取证数据采集系统的开发设计,通过系统的软件设计和挖掘算法优化设计,提高了对网络取证数据的挖掘和采集性能。实验分析表明,采用本文设计系统在网络日志和服务器数据中进行犯罪证据取证采集,可靠性较高,精确度优于传统方法,展示了较好的应用价值。
[1] 郑道宝, 王怀杰. 基于ARM/GPRS的远程图像报警系统的设计[J]. 计算机测量与控制, 2013, 21(1): 149-151.
[2] 陆兴华,吴恩燊,黄冠华.基于Android的智能家居控制系统软件设计研究[J].物联网技术,2015, 35(5): 692-695.
[3] 刘茂旭,何怡刚,邓芳明,等.融合RFID的无线湿度传感器节点设计研究[J]. 电子测量与仪器学报,2015,29(8):1171-1178.
[4] 李 楠, 宋晓梅, 巩学芳. 一种支持USB和以太网端口的数据采集器设计[J]. 西安工程大学学报, 2014,28(5):593-597.
[5] 李 鹏, 刘思峰. 基于灰色关联分析和D-S 证据理论的区间直觉模糊决策方法[J]. 自动化学报, 2011, 37(8): 993-999.
[6] Eldemerdash Y A, Dobre O A, and Liao B J. Blind identification of SM and Alamouti STBC-OFDM signals[J]. IEEE Transactions on Wireless Communications, 2015, 14(2): 972-982.
[7] 崔永君,张永花.基于特征尺度均衡的Linux系统双阈值任务调度算法[J].计算机科学,2015,42(6):181-184.
[8] Li L, XIE W. Intuitionistic fuzzy joint probabilistic data association filter and its application to multitarget tracking[J]. Signal Processing, 2014, 96: 433-444.
[9] 刘 俊,刘 瑜,何 友,等. 杂波环境下基于全邻模糊聚类的联合概率数据互联算法[J]. 电子与信息学报, 2016, 38(6): 1438-1445.
[10] 王 锐,何聚厚.基于领域本体学习资源库自动构建模型研究[J].电子设计工程,2015,(24):32-35.
Design and Implementation of Network Forensics Data Acquisition System Based on Weak Association Mining
Xu Xuetian,Zou Tonghao
(Department of Information Management, Guandong Justice Police Vocational College,Guangzhou 510520,China)
The massive web logs to data mining and server data, access to the network forensics, based on the analysis of criminal evidence has great application value. Traditional data acquisition system, the main increase to filter network forensics data processing module, increase the accuracy of sampling system, there are long acquisition time, the problem of low efficiency. Based on weak association mining network forensics data acquisition system design method of the overall design description of network forensics data acquisition system and technical index analysis. And on this basis, the design is based on the data network forensics is feature extraction of weak association rules mining algorithm, and realize the network forensics accurate detection and data acquisition. On the embedded Linux platform for network forensics data acquisition system software development and system design. Experimental results show that the system of criminal evidence in web logs and server data to obtain evidence collection, its reliability is higher, forensics data acquisition precision is higher than the traditional method, shows a good application value.
data mining; network; crime evidence; system design
2016-06-15;
2016-07-14。
许学添(1984-),男,广东揭阳人,硕士研究生,讲师,主要从事数据挖掘,生物信号处理方向的研究。
1671-4598(2017)01-0123-04DOI:10.16526/j.cnki.11-4762/tp
TP
A