基于贝叶斯网络的电子阅读App软件动态检测技术
2022-05-11张旭华任蔚李欣
张旭华, 任蔚, 李欣
(陕西能源职业技术学院, 1.信息中心, 2.教务处, 陕西, 咸阳 712000)
0 引言
移动互联网技术的飞速普及使得各种App软件的智能终端因其良好的用户体验为人类的生活带来诸多便捷,同时也得到十分广泛的应用,成为了人们日常生活中不可或缺的部分[1-2]。人们渐渐地关注软件的准确性、可信度以及安全系数等因素。因此,软件在运行过程中,如何精准地、可靠地以及快速地满足人们的需求成为目前软件研发的热点话题[3]。但目前,电子阅读App软件存在设计和内容同质化严重、“浅阅读”、用户黏度不足等问题。国内外相关专家针对该方面的内容展开了大量的研究,例如马绍菊等[4]分别计算恶意应用样本和良性应用样本权限关联规则,对比2种样本获取的用户权限差异,通过恶意样本获取的点关联规则对混合样本进行检测。Laprevotte等[5]主要通过一种加密的机器人测功仪对隐私信息进行加密,在确保应用程序运输实时性的情况下隐私数据不会被恶意传送,进而达到全自动分析检测的目的。以上2种方法虽然能够有效防止隐私数据被泄露,但是由于未能进行电子阅读App软件动态特征提取,整体的检测结果不佳,开发效率下降。为此,提出一种基于贝叶斯网络的电子阅读App软件动态检测方法。对电子阅读App软件动态特征进行提取,并利用动态特征提取将局部的主体信息的拟合程度进行体现,提高整体检测结果,增加开发效率。仿真实验结果表明,所提方法能够有效增加开发效率,获取较好的检测结果。
1 方法
1.1 电子阅读App软件特征提取
相似度的主要作用是将局部的主体信息的拟合程度进行体现[6-7]。相似度主要用来判断2个数据样本之间的差异程度,相关系数记为ρXY:
(1)
式中,D(X)代表随机变量X的方差,D(Y)代表随机变量Y的方差,Cov(X,Y)代表随机变量X、随机变量Y的协方差。假设ρXY=0,则称X和Y不相关,否则相关;假设ρXY>0,则称X和Y负相关。其中,ρXY越大,则说明变量的相似度越高。
根据朴素贝叶斯分类的基本思想[8]和贝叶斯公式,设定A1,A2,…,An是一组不相容的事件,而且事件B能且只能够和其中一个事件同时发生,则式(2)成立:
(2)
假设样本集含有n个属性,即A1,A2,…,An属性值组成样本的特征向量,可能包含的类别有m个,具体为{x1,x2,…,xn},计算X分别属于各个类别的概率为P(Ci|X),则有:
(3)
由于对全部Ci,P(X)均一致,所以只需要对比部分P(Ci|X)P(Ci)即可。其中P(Ci)能够通过训练集获取,该训练集类别即Ci所占据的比例。在属性独立的状态下,则式(4)成立:
(4)
其中,P(xj|Ci)也是通过训练集获取的。假设Aj是分类属性,P(xj|Ci)和Aj两者是相等的,并且等同于xj的比例,则式(5)成立:
(5)
由于和P(X)均相等,则通过式(6)进行对比,即:
(6)
在朴素贝叶斯网络对应结构中,仅有一个类节点。其中节点代表各个分类的不同属性,属性节点中仅包含一个父节点,即类节点,且各个属性节点之间是相互独立的[9]。利用图1给出朴素贝叶斯分类结构图。
图1 朴素贝叶斯分类结构
由图1可知,贝叶斯网络主要通过有向边描述不同节点之间的概率依赖关系,计算各个节点的后验概率,同时更新先验概率。在上述分析的基础上,引入相似度概念,利用相似度判断数据样本间的差异程度[10],并依据贝叶斯分类划分属性值组成样本的特征向量,通过训练集获取分类属性,提取电子阅读App软件动态关键特征,以上操作不仅能够提取准确的特征,同时还能够提升计算效率,即:
(7)
1.2 基于贝叶斯网络的电子阅读App软件动态检测
在1.1小节的基础上,将支持向量机以及贝叶斯网络等方法相结合组建电子阅读App软件动态初始检测机制,具体的操作流程如下所示。
采用SVM进行电子阅读App软件动态检测的主要操作步骤如下。
(1)首先将得到的电子阅读App软件应用程序代码和恶意代码入库,在电子阅读App软件特征中提取特征规则化,组建特征矩阵。
(2)采用SVM算法组建超分类平面,对电子阅读App软件动态训练库中的恶意样本进行提取[11-12]。
(3)对测试样本库进行SVM超平面划分。
其中,基于贝叶斯网络的电子阅读App软件动态检测步骤如下所示。
(1)通过关联规则算法挖掘电子阅读App软件中各个行为特征之间的关联关系,将在电子阅读App软件中挖掘出的关联关系作为基础[13],组建贝叶斯网络的网络结构。
(2)通过局部优先策略对步骤(1)中建立的网络结构进行学习[14-15],具体的计算式为
MDL(G|D)=
(8)
式中,b和n分别代表不同的常数,kj代表Xi节点中对应的父节点数量,si代表Xi的特征数量,sj代表Xi的取值数量,N代表特征系数,W代表分类参数,FXi代表关联规则函数。
(3)针对贝叶斯网络结构中各个节点的参数进行学习。
在迭代训练阶段,将在电子阅读App软件提取出的节点特征与数据库中的数据进行匹配,利用特征动态匹配对比结果得出相应的程序隐私分数,进而得出软件风险检测报告。通过特征比对的结果,利用神经网络技术对初级检测机制中各个决策权重进行修正,并对应用与类的相似性进行加权处理,有效增强其检测能力,具体如下所示。
神经网络的主要优势是在较大的范围内输入值挤压到(0,1)连续的输出空间,具体计算式为
(9)
隐层到输出层的连接权重为Whj,代表多未知因素对检测结果的影响程度,采用梯度下降策略对Whj进行更新,根据目标的负梯度方向及时进行参数调整。如果已知学习率η,则Whj能够表示为
(10)
其中,Ek代表负梯度系数,输出层神经元的梯度项gj和隐层神经元的梯度项eh能够表示为以下的形式:
(11)
(12)
其中,βj代表输出层神经元的目标参数,θj代表隐层神经元的目标参数,αh、bh代表输出层和隐层的决策权重,γh代表初级检测参数,对初级检测机制对应的决策权重进行校正,完成电子阅读App软件动态检测。pstr代表初级检测机制的修正参数,该过程主要通过电子阅读App软件调用相关技术获取动态检测信息,提取检测特征,即:
(13)
2 仿真实验
为了验证所提基于贝叶斯网络的电子阅读App软件动态检测方法的有效性,在Windows 10操作系统,Intel(R) Core(TM)2Duo CPU 2环境下进行仿真实验测试。
实验选择3种检测方法针对不同的电子阅读App软件动态的识别能力,主要包括检测率、误报率以及漏报率。在实验中选取3 000个样本进行测试,其中正常 App软件有1 500个,恶意App软件1 500个。将实验样本输入到实验环境中,利用 Eclipse 检测技术进行后台检测,最终输出检测报告。具体实验对比结果如表1~表3所示。
表1 检测率
表2 误报率
表3 漏报率
分析表1~表3中的实验数据可知,选取3种检测方法进行电子阅读App软件动态检测存在一定的差异性,文献[4]方法和文献[5]方法检测率最高为95.6%、93.8%,本文方法为98.6%,文献[4]方法和文献[5]方法误报率最低为0.05%、0.08%,本文方法为0.02%,文献[4]方法和文献[5]方法漏报率最低为0.03%、0.07%,本文方法为0.01%,由此能够看出,借助贝叶斯网络理论,所提方法的检测结果明显更好一些。
为了验证贝叶斯网络的收敛性,主要通过降低数据维度之间的关联性来减少计算复杂度,同时尽可能确保精度处于稳定的状态。为了更好地验证这一点,将开发效率作为测试指标,具体实验结果如图2所示。
图2 开发效率
分析图2中的实验数据可知,所提方法明显拥有更高的开发效率,其开发效率均在90%以上,主要是因为其采用贝叶斯网络进行电子阅读App软件特征提取,为提升整个方法的开发效率奠定坚持的基础。
3 总结
针对传统检测方法存在的一系列问题,设计并提出一种基于贝叶斯网络的电子阅读App软件动态检测方法。测试结果表明,所提方法能够获取较为理想的检测结果,有效降低开发效率。现阶段,所提方法存在不足之处,后续将对其进行全面完善。