基于随机网络集成模型的广义网络社区挖掘模型
2018-07-28卢恒亮
卢恒亮
摘要:为了提升网络社区挖掘的精度,需要组建广义网络社区挖掘模型对同配和异配网络中的社区结构进行挖掘。但是采用当前模型进行网络社区挖掘时,无法给出网络社区划分的指标,存在挖掘精度低的问题。为此,提出一种基于随机网络集成模型的广义网络社区挖掘模型。该模型先定义网络社区概念,对不同类型网络社区结构进行统一,引入二分团的紧密度对初始社区进行划分,给出网络社区划分的指标,对孤立点进行社区划分,组建基于随机网络集成模型的广义网络社区挖掘模型,利用该模型进行广义网络社区挖掘。实验仿真证明,所提模型可以在不知道网络类型的前提下准确地挖掘出有内涵的社区结构,并可以有效地提取社区类型特征。
关键词:随机网络集成;广义网络社区;挖掘模型
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)11-0014-03
1 概述
目前,在复杂网络中社区结构时候最为普遍的拓扑结构,据不完全统计,各种类型的复杂网络都具有较为突出的社区结构,有所区别的是相同网络区域中的结点相互反应较强,反之相同网络区域中的结点相互较弱[1]。为了帮助各个行业领域的人去理解一个复杂的网络是如何构造成的,需要组建广义网络社区挖掘模型进行广义网络社区,以便更好地进行网络行为预测或检测[2]。但是相对于大多数的广义网络社区挖掘模型广义网络社区挖掘,均无法给出网络社区划分的指标,致使其对广义网络社区挖掘的实施陷入了瓶颈。在这种情况下,广义网络社区挖掘问题成为了制约互联网数据挖掘领域发展的一个重要因素,引起了很多专家和学者的重视[3~4]。
2 广义网络社区挖掘建模原理
网络拓扑结构中不同类型的节点都有核心的作用,将有着核心作用的和地位的节点在网络中有着非常显著的影响,也对其周围邻居节点有着较大的波及强度,依据这些强度的不同,将网络划分为大小不一的社区,从而挖掘出网络社区抱团性。具体的步骤如下详述:
假设,由[s′wer]代表生长节点的类型数量,[d′ery]代表节点的属性集合,[e′dkoph]代表节点的属性特征类型,[s′ert]代表网络区域的划分范围,则利用式(1)获取网络重要节点集合:
[o′jkol=s′ert×d′erye′dkoph±s′ert×d′ef?f′f]
在上式中,[d′ef]代表社区划分的子网络数量,[f′f]代表同类社区的区域属性。
假设,由[ω′wer]代表数据场的势函数,[ν′aws]代表势函数的重要因素,[υ′sed]代表节点的质量和节点间的距离,则利用式(2)计算出数据场的势函数[ω′wer]:
[ω′wer=υ′sed×ν′awsA′swed⊕c′swer]
在上式中,[A′swed]代表节点的特征数量,[c′swer]代表节点在网络中的最短路径。
假设,由[ξ′swe]代表根节点集合,[ggy]代表根节点集合,[μ′awsd]代表遍历所有节点的时间,利用式(3)挖掘出网络社区抱团性:
[m′sded=μ′awsd×ggyξ′swe?s′s]
在上式中,[s′s]代表根节点的势值。
综上所述可以说明,广义网络社区挖掘建模原理,利用该原理组建了广义网络社区挖掘模型。
3 基于随机网络集成模型的广义网络社区挖掘模型
3.1 网络社区划分的指标的设定
在组建广义网络社区挖掘模型过程中,对广义网络社区进行定义,给出网络存在链接的概率,提出网络中的链接独立出现的约束条件,得到每个子网络的自耦合情况,给出各个子网络类型的判断阈值。具体的步骤如下详述:
将随机网络集成模型定义为从网络的角度出发,利用机器学习的模式将其分割为给定数量的随机子网络,并且随机子网络的集成可以擬合为被观测网络的链接结构。假设,由[N]代表一个网络,[VN]代表网络中结点的集合,[A]代表矩阵,将[A]定义为[N]的衔接矩阵,利用式(4)计算出网络出现链接[i,j]的概率:
[asghj=i,j⊕VNA×N⊕C⊕F′cdf]
在上式中,[C]代表网络[N]的一个划分,[F′cdf]代表网络中的结点个数。
假设,由[CK]代表网络[N]的[K]个子网络,[h′sdef]代表[n]维向量,将[h′sdef]定义为结点[i]与其他结点 (包括自身) 的拓扑链接结构,[pt]代表拓扑结构[ti]在网络[N] 中出现的概率,则利用式(5)计算出网络中的链接独立出现的约束条件:
[x′frjk=ti×CKF′cdf×ptN⊕h′sdef×ti]
由[μ′swde]链接独立出现的假设,
假设,由[χ′swder]代表子网络[CP]和[Cq]的耦合度,则利用式(7)得到每个子网络的自耦合情况:
[A′swe=CP,Cqχ′swder⊕k′df]
在上式中,[k′df]代表子网络耦合矩。
假设,由[ν′sdef]代表同配社区的数量,[?′sdery]代表异配社区的数量,则利用式(8)给出各个子网络类型的判断阈值:
[A″xcb=?′sdery×ν′sdefd′sdfg?sdf]
式中,[d′sdfg]代表子网络间的耦合度判断阈值的权重,[sdf]代表每个子网络的自耦合度。
综上所述可以说明,在组建广义网络社区挖掘模型过程中,对广义网络社区进行定义,给出网络存在链接的概率,提出网络中的链接独立出现的约束条件,得到每个子网络的自耦合情况,给出各个子网络类型的判断阈值,为组建广义网络社区挖掘优化模型奠定了基础。
3.2 广义网络社区挖掘模型的优化组建
在组建广义网络社区挖掘模型过程中,以3.1节获取的子网络类型的判断阈值[A″xcb],得到二部图的关系矩阵,提取节点序列,依据节点序列得到广义后缀树,从中得到初始完全二分团,依据二分团构建初始社区,将孤立节点融入到社区中。具体的步骤如下详述
假设,由[v′df]节点集,[c′wefg]代表连接[Vm]的边在总边数中所占的比例,[G=Vx,VY,E]代表二部图 ,其中,[Vx]和[VY]分别代表[G]的两个节点集,[E]是节点的连边,如果 [Vx]中有[n]个节点,[VY]中有[m]个节点,以3.1节获取的子网络类型的判断阈值[A″xcb],则利用式(9)得到二部图的关系矩阵:
[d′dfd=m×v′dfc′wefg?G?Vx,VY,EA″xcb]
假设,由[γ′sdvb]代表二部图的节点序列,
[A′zxcnl=γ′sdvb??i,jμ′dcvgh?g′g]
在上式中,[μ′dcvgh]代表社区的对应关系,[g′g]代表二分网络划分方案的优劣程度。
假设,由[σ′sdvgh]代表字符集,[κ″xcvb]代表一个非空子串,[S″swde]代表两类节点之间的链接关系,则利用式(11)构建初始社区:
[P′asedf=S″swde×κ″xcvbσ′sdvgh?f′sdf⊕e′sdcv]
在上式中,[f′sdf]代表二分团中存在冗余的团,[e′sdcv]代表不同类型的节点相互之间连接边。
假设,由[k′dcf]代表完全二分团的密度,[ι′swcd]代表孤立点的紧密度,则利用式(12)将孤立节点融入到社区中:
[X′sedf=ι′swcd⊕k′dcfP′asedf?w′df]
在上式中,[w′df]代表后每个社区中节点的类型数量。
假设,由[?′wde]代表二分团有大量重叠的节点,[ι′d]代表节点序列的时间复杂度,则利用式(13)组建广义网络社区挖掘模型:
[Z′as=ι′d×?′wdeg′dfg]
在上式中,[g′dfg]代表每个社团最小的节点。
4 实验仿真证明
为了更好地验证基于随机网络集成模型进行广义网络社区挖掘的性能,需要进行一次实验。在Windows环境下搭建广义网络社区挖掘平台。实验数据集来源于真实数据集SouthrenWomen上进行验证,将实验环境设定为:8GB内存,Intelcorei7CPU,Windows7操作系统。实验选择了4个同配网络、4个实际异配网络和4个实际混合网络, 以及由计算机生成的随机网络对本文所提模型进行了测试。
4.1 评价指标的设定
在实验中,从主观和客观的角度上分别来评价在实验中基于随机网络集成模型进行广义网络社区挖掘的性能。将挖掘信噪比作为主观评价指标来定义基于随机网络集成模型进行广义网络社区挖掘的整体优越性,为了彰显实验的全面性和公正性,将传统数据挖掘模型作为对比模型进行共同的分析和对比,将挖掘誤报率和拟合优度作为客观评价指标来验证不同模型进行广义网络社区挖掘的质量。
假设,由[γ′dfr]代表社区的 “边界”,[d′ds]代表两个社区间的距离,[η′sf]代表社区的自耦合度,则利用式(14)计算挖掘信噪比:
[Erm=η′sf⊕d′dsγ′dfr]
从式(14)中可以分析得出,[Erm]值越高,则挖掘的有效性就越好。
假设,由[μ′kju]代表网络链接的类型,[?′zxc]代表社区内的链接密度,[ξ′kij] 和[κ″sed]分别代表主角和配角间的同配,则利用式(15)和式(16)得到挖掘误报率和拟合优度:
[A″SDE=μ′kju×?′zxcξ′kij?κ″sed]
[a′sed=μ′kju×?′zxcξ′kij?κ″sed?A″SDE]
从式(15)和式(16)中可以分析得出,[a′sed]值越高,则挖掘的效果越好,[A″SDE]越小,则挖掘的质量相对的好。
4.2 基于随机网络集成模型挖掘信噪比测试
利用随机网络集成模型进行广义网络社区挖掘实验,在不同的实验样本下,测试随机网络集成模型进行广义网络社区挖掘的信噪比,测试结果见图1。
从图1的实验仿真结果中可以分析说明,利用随机网络集成模型进行广义网络社区挖掘具有较高的信噪比,这是因为在利用随机网络集成模型进行广义网络社区挖掘时,可以计算出不同类型网络间的同配社区会耦合度阈值,根据每个子网络的自耦合情况分析子网络的类型,得到属性相似的结点具有的连接概率,从而提升了挖掘的信噪比,保障了挖掘的精度。
4.3 不同模型进行广义网络社区挖掘的拟合优度和误报率对比
基于随机网络集成模型和传统模型进行广义网络社区挖掘实验,对比不同模型进行广义网络社区挖掘的拟合优度和误报率对比。对比不同模型进行广义网络社区挖掘的拟合优度和误报率,对比结果见表1和表2。
从表1和表2的实验仿真结果中可以分析出,基于随机网络集成模型进行广义网络社区挖掘的整体有效性要优于传统模型,这主要是因为,在利用基于随机网络集成模型进行广义网络社区挖掘时,给出网络社区划分的指标,对孤立点进行社区划分,组建基于随机网络集成模型的广义网络社区挖掘模型,从而满足了广义网络社区挖掘对其挖掘质量的需求。
5 结束语
针对采用当前模型进行网络社区挖掘时,无法给出网络社区划分的指标,存在挖掘精度低的问题。为此,提出一种基于随机网络集成模型的广义网络社区挖掘模型。实验仿真证明,所提模型可以在不知道网络类型的前提下准确地挖掘出有内涵的社区结构,并可以有效地提取社区类型特征。
参考文献:
[1] 蒋勇,赵作鹏.一种自主免疫学习的分布式网络攻击对抗模型研究[J]. 计算机应用研究, 2015, 32(4).
[2] 刘爱江,黄长慧,胡光俊.基于改进神经网络算法的木马控制域名检测方法[J]. 电信科学, 2014, 30(7).
[3] 韩威,童晶,张培栋,等.网络招募的男男性行为者HIV感染状况及影响因素分析[J]. 中华实验和临床病毒学杂志,2015,29(6).
[4] 徐毅.感染病毒后网络自我保护控制中的最优通信节点选择[J]. 现代电子技术, 2016, 39(18).
[5] 卓国锋.一种基于危险评估的光纤传感网络入侵检测方法[J]. 激光杂志, 2017, 38(8).
[6] 任午令,赵翠文, 姜国新,等. 基于攻击行为预测的网络防御策略[J]. 浙江大学学报(工学版), 2014, 48(12).