远程虚拟教育通信中异常数据挖掘技术*

2017-07-19况姗芸

沈阳工业大学学报 2017年4期

关键词：信息熵数据挖掘远程

杨琼，况姗芸

(1. 华东师范大学教育科学学院，上海 200062； 2. 琼台师范学院信息技术系，海口 571127； 3. 华南师范大学教育信息技术学院，广州 510631)

远程虚拟教育通信中异常数据挖掘技术*

杨琼1，2，况姗芸3

(1. 华东师范大学教育科学学院，上海 200062； 2. 琼台师范学院信息技术系，海口 571127； 3. 华南师范大学教育信息技术学院，广州 510631)

针对现有挖掘方法应用到远程虚拟教育通信异常数据挖掘时，其挖掘准确率及应用效率偏低的问题，提出一种基于空间聚类算法(FWSCA)与差分进化法的远程虚拟教育中异常数据挖掘方法.采用信息增益法提取远程虚拟教育通信数据特征，引入WTA规则对在线通信的数据特征进行聚类，在此基础上，采用稀疏分数方法对数据进行区分，采用FWSCA与差分进化法相结合对运程虚拟教育通信异常数据进行挖掘.结果表明，采用该挖掘方法进行异常数据挖掘，挖掘精度相比传统挖掘算法精度高、时间短，具有一定的优势.

远程虚拟教育；通信；异常数据；挖掘；数据特征；聚类；区分；精度

随着计算机网络、多媒体和虚拟现实技术的不断进步，网络远程教育作为一种现代化的教育手段得到了快速发展[1-2].如何实现安全的远程网络教学，使远程虚拟教育被广泛地使用到实践性要求较高的学科中，成为该领域亟待解决的问题[3-4].而对远程虚拟教育通信中异常数据进行挖掘是解决此问题最有效的方法，近年来也受到广大学者的重点关注[5-8].

文献[9]提出基于信息熵的异常数据挖掘方法，该方法通过定义信息熵的异常度来判断通信数据间的异常情况，并根据异常等级进行挖掘，但是该方法对等级划分计算较为繁琐，实效性不强；文献[10]提出一种基于机器学习的挖掘方法，依据机器学习的相关原理得到标准方程组，建立异常数据挖掘最优模型，经过计算数据的特征向量得到异常数据库，最后根据计算得到的概率值对异常数据进行挖掘，但是该方法主要针对固定的结构模型，难以大规模推广应用；文献[11]提出了基于物联网的异常数据挖掘方法，借助物联网中的无线传感器网络技术实现对异常数据的挖掘，但是该方法需要大量训练数据，且挖掘效率较低.针对上述问题，本文提出一种基于空间聚类算法(FWSCA)与差分进化法的远程虚拟教育通信中异常数据挖掘方法.

1 通信数据特征提取及聚类

1.1 数据特征提取

(1)

式中，lm为第m个样本的属性.在此基础上，采用信息增益法对样本矩阵进行分类，得到分类期望信息表达式为

I(s1，s2，…，sm)=-pilog2pi
(i=1，2，…，m)

(2)

(3)

(4)

式中：a、b为两个数据对象；E为数据集中的连续属性集；B为离散属性集.在获得教育通信数据的基础上需要进行特征聚类分析，以提高数据特征的显著性.

1.2 数据特征聚类

在提取远程虚拟教育通信数据特征的基础上，可引入WTA规则对特征进行聚类，为特征选择提供基础依据.

假设训练集生成原始树为T，某叶子结点实例个数为n(t)，错误分类个数为e(t).由于训练数据是用来生成决策树的，而基于此训练数据集的误差率r(t)=e(t)/n(t)存在偏差，无法精确地选择最优决策树，因此将误差率修改为

(5)

定义此时的适应值函数为

(6)

式中：α为权重因子；H为条件属性集基数；Lv为通信数据基数；O为距离递归函数；D为传递距离；A(v)为位串所表示的条件属性子集.本文将WTA规则聚类算法引入到通信数据中[12]，得到中心递归方程为

vi(t)=vi(t-1)-ηD(vi(t-1)，xnt)

(7)

式中：vi(t-1)为t-1时刻第i个聚类中心；xnt为t时刻第n个到达的数据样本；η为递归因子；D(vi(t-1)，xnt)为样本xnt与中心vi(t-1)的距离.

设有N个样本数据流，t时刻获得Nt个新的远程通讯样本，新获得的样本权值∑qj(t)=1，j=1，2，…，Nt，则可以得到此时的加权聚类中心vi(t-1)及其被选中概率pi(t-1)，i=1，2，…，C.vi(0)为初始化空集，采用FWSCA算法将Nt个数据样本划分为C个聚类中心，其相应聚类概率可表示为

(8)

式中，uij为样本xj(1)属于聚类中心vi(1)的模糊隶属度，1≤i≤C，1≤j≤Nt.

2 通信异常数据挖掘方法

2.1 通信异常数据区分

(9)

式中，μr为整个远程通信数据样本第r维特征均值.以此稀疏表示为基础，使用L1范数最小化的优化方法确定获取数据是否存在异常.

假设远程通信数据集{xi}，且xi∈Rd，令数据矩阵X=[x1，x2，…，xn]∈Rd×n中每一列为此数据集里的一个数据向量，然后获取每个远程通讯数据量xi对应的重构数据si，即求解远程通信数据间L1范数最小化线性规划问题，其表达式为

(10)

式中：X′为X不包括第i列xi的数据矩阵；si=[si1，…，sii-1，0，sii+1，…，sin]T为一个n维系数向量.由于计算si时，X′不包括在X里，所以si中第i个元素设置成0，sij(j≠i)为远程通信数据集的第j个数据量xj重构后对xi的贡献.获得整体远程通讯数据集在稀疏表示下重构的系数矩阵.

以得到的稀疏重构系数为基础，对整体数据样本的重构误差进行累加，当一个特征及获取的重构特征误差较小时，则证明此特征在整体数据集上具备较好的稀疏表示水平，稀疏分数目标函数[13]可表示为

(11)

由式(11)可知，异常数据的确认与Fr有直接的关系，Fr越大，则此特征越重要，说明此数据为正常数据；反之，值越小，特征越不显著，说明此数据为异常数据.

2.2 异常数据挖掘

(12)

式中，dij(xi，bj)为异常数据对象xi与异常中心数据bj的欧氏距离.在式(12)基础上进行迭代计算，所有的异常数据簇势的平均值为

(13)

式中：itr为FWSCA算法的迭代索引指数；c(itr)为第itr次迭代时的异常数据簇个数.第itr次迭代时，异常数据簇的阈值可表示为

MCT(itr)=δCavg(itr)

(14)

(15)

(16)

式中：rand(j)为[0，1]间均匀分布的随机数；CR为异常数据挖掘概率.CR越大，异常数据挖掘越全面，得到的结果越准确；反之，CR越小，挖掘的异常数据越少，得到结果准确率越低.

3 实验仿真分析

为了验证本文提出的异常数据挖掘方法的有效性，将其与信息熵法、机器学习法进行对比研究.实验以远程虚拟教育通信数据集为研究对象进行异常数据挖掘分析，该数据集包括1 610个样本，7个异常数据簇，各异常数据簇里有230个样本，异常数据样本均是40个.不同的异常数据簇包括的子特征构造也不一样，7个异常数据特征分布图如图1所示.对于各异常数据簇，若其在相关子空间中，则数据特征服从高斯分布；若在无关子空间中，则数据特征服从均匀分布.

在异常数据集范围一定的情况下，以异常数据挖掘所需时间为考核量进行挖掘效率方面的对比分析，不同方法挖掘时间对比结果如图2所示.由图2可知，采用改进方法挖掘时，其异常数据挖掘时间相比信息熵法和机器学习法有了大幅降低，传统机器学习方法遍历所有数据集，不仅增加了硬件成本，同时也降低了挖掘效率，而改进方法利用WTA规则对数据集规划聚类，之后通过机器对异常数据进行判断，效率得到提高.

图1 异常数据特征分布Fig.1 Characteristic distribution of abnormal data

图2 异常数据挖掘时间对比Fig.2 Comparison in mining time of abnormal data

为了进一步验证改进方法的有效性及可行性，分别对改进方法与信息熵法及机器学习法进行挖掘精度方面的对比.在异常数据集范围一定的情况下，异常数据挖掘精度对比分析如图3所示(图3a利用3类异常数据簇，3b利用5类异常数据簇).

图3 异常数据挖掘精度对比Fig.3 Comparison in mining precision of abnormal data

总体比较，相对于机器学习法和信息熵法，采用改进方法进行异常数据挖掘时，其挖掘出的异常数据与实际异常数据更加接近.其他两种算法挖掘过于保守，能够挖掘的异常数据较为有限，而本文所提出的方法在某些异常数据簇中的表现过于激进，挖掘精确度有待进一步提高，针对不同异常数据簇进行权重与阈值的调整将是下一步主要研究目标.

4 结论

针对传统异常数据挖掘方法存在挖掘精度低，效率差的问题，提出了基于FWSCA与差分进化法的远程虚拟教育中异常数据挖掘方法，通过实验分析得到如下结论：

1) 采用改进异常数据挖掘方法时，其数据挖掘时间相比信息熵法和机器学习法有了大幅降低，提高了数据挖掘效率.

2) 改进方法总体的挖掘精度要优于传统方法，但在某些异常数据簇中表现过于激进，而传统方法过于保守，需要在权重与阈值方面进一步调整.

[1]牛耕，吴亮.论计算机远程教育与多媒体技术 [J].科技经济市场，2015(4)：87-88.

(NIU Geng，WU Liang.Theory of computer remote education and multimedia technology [J].Science & Technology Economy Market，2015(4)：87-88.)

[2]黄兴，孟威，董宏宇，等.电力信息网和通信数据网融合的探索 [J].电力信息与通信技术，2014，21(5)：45-48.

(HUANG Xing，MENG Wei，DONG Hong-yu，et al.Exploration of electric power information network and communication of data fusion [J].Electric Power Information and Communication，2014，21(5)：45-48.)

[3]郑羽洁，李茜.基于大数据混沌特性的分区域异常数据挖掘 [J].河池学院学报，2015，21(5)：68-73.

(ZHENG Yu-jie，LI Qian.Regional anomaly data mining based on chaotic characteristics of big data [J].Journal of Hechi University，2015，21(5)：68-73.)

[4]龚健虎.基于双曲游散牵引的飞行异常操作数据挖掘 [J].控制工程，2014，21(4)：617-620.

(GONG Jian-hu.Flight abnormal operation data mining based on stray traction in hyperbolic [J].Control Engineering of China，2014，21(4)：617-620.)

[5]杨庭庭，徐凯.人工智能用于异常数据挖掘研究综述 [J].电子技术与软件工程，2014(8)：198-200.

(YANG Ting-ting，XU Kai.Artificial intelligence for abnormal data mining research [J].Electronic Technology & Software Engineering，2014(8)：198-200.)

[6]王传玉，刘震，王怀彬.一种基于OPTICS和IncLOF的异常数据挖掘算法 [J].天津理工大学学报，2015，31(6)：14-18.

(WANG Chuan-yu，LIU Zhen，WANG Huai-bin.An outlier data mining algorithm based on OPTICS and IncLOF [J].Journal of Tianjin University of Techno-logy，2015，31(6)：14-18.)

[7]郭黎利，张海龙，孙志国，等.一种高频带利用率的PCSS-OFDM通信技术 [J].沈阳工业大学学报，2015，37(5)：542-547.

(GUO Li-li，ZHANG Hai-long，SUN Zhi-guo，et al.A PCSS-OFDM communication technology with high band efficiency [J].Journal of Shenyang University of Technology，2015，37(5)：542-547.)

[8]王远亮，葛建华.一种QoS网络路由通信数据时延WRR算法优化研究 [J].计算机光盘软件与应用，2014(15)：287-288.

(WANG Yuan-liang，GE Jian-hua.QoS routing network communication data delay WRR algorithm optimization research [J].Computer CD Software and Applications，2014(15)：287-288.)

[9]陈鹏，司健，于子桓，等.基于信息熵的网络流异常监测和三维可视方法 [J].计算机工程与应用，2015，51(12)：88-93.

(CHEN Peng，SI Jian，YU Zi-huan，et al.Flow abnormity supervision based on information entropy and 3D visualization [J].Computer Engineering and Applications，2015，51(12)：88-93.)

[10]韩莹，李姗姗，陈福明.基于机器学习的地震异常数据挖掘模型 [J].计算机仿真，2014，31(11)：319-322.

(HAN Ying，LI Shan-shan，CHEN Fu-ming.The seismic anomaly data mining model based on machine learning [J].Computer Simulation，2014，31(11)：319-322.)

[11]潘俊方，樊阿娇，茹艳，等.基于物联网的智慧交通大数据挖掘系统 [J].无线互联科技，2016，12(5)：25-26.

(PAN Jun-fang，FAN A-jiao，RU Yan，et al.Intelligent traffic big data mining system based on iot [J].Wireless Internet Technology，2016，12(5)：25-26.)

[12]董本清，彭健钧.复杂网络数据流中的异常数据挖掘算法仿真 [J].计算机仿真，2016，33(1)：434-437.

(DONG Ben-qing，PENG Jian-jun.Abnormal data mining algorithm in complex network data flow simulation [J].Computer Simulation，2016，33(1)：434-437.)

[13]王莉君，何政伟，冯平兴.基于ICA的异常数据挖掘算法研究 [J].电子科技大学学报，2015，44(2)：211-214.

(WANG Li-jun，HE Zheng-wei，FENG Ping-xing.Study of outlier data mining algorithm based on ICA [J].Journal of University of Electronic Science and Technology of China，2015，44(2)：211-214.)

(责任编辑：景勇英文审校：尹淑英)

Abnormal data mining technology in remote virtual education communication

YANG Qiong1，2, KUANG Shan-yun3

(1. College of Education and Science, East China Normal University, Shanghai 200062, China; 2. Department of Information Technology, Qiongtai Normal University, Haikou 571127, China; 3. School of Educational Information Technology, South China Normal University, Guangzhou 510631, China)

Aiming at the low accuracy and poor efficiency problems when the traditional mining methods are applied to the abnormal data mining in the remote virtual education communication, an abnormal data mining method based on FWSCA and differential evolution method in the remote virtual education was proposed. The data characteristics of remote virtual education communication were extracted with the information gain method. In addition, the data characteristics of online communication were clustered with the introduction of WTA rule. On this basis, the data were distinguished with the sparse score method, and the FWSCA in combination with the differential evolution method was adopted to conduct the abnormal data mining in the remote virtual education communication. The results show that when it is used for data mining, the proposed method exhibits higher mining precision and short mining time, and has certain advantages compared with the traditional mining algorithm.

remote virtual education; communication; abnormal data; mining; data characteristic; clustering; distinguish; precision

2016-08-31.

海南省高校教育教学改革研究项目(Hnjg2015-81).

杨琼(1974-)，女，云南大理人，副教授，硕士，主要从事信息技术与多媒体应用等方面的研究.

10.7688/j.issn.1000-1646.2017.04.10

TP 391

1000-1646(2017)04-0412-05

*本文已于2017-03-28 17∶09在中国知网优先数字出版. 网络出版地址： http：∥www.cnki.net/kcms/detail/21.1189.T.20170328.1709.036.html