社交网络中热点话题深度挖掘方法及实验测试
2017-03-21江务学
江务学
(东莞职业技术学院 计算机工程系,广东 东莞 523808)
社交网络中热点话题深度挖掘方法及实验测试
江务学
(东莞职业技术学院 计算机工程系,广东 东莞 523808)
互联网大数据时代,社交网络数据交互具有实时性、社会性、复杂性;多元架构数据信息中会存在热点话题数据;传统社交网络热点话题挖掘方法存在热点词条检索速度慢、话题词条层浅、断层数据无法挖掘等一系列问题,如何将社交网络中的热点话题数据进行挖掘,针对这一问题提出大数据信息词条特征比对提取方法,对社交网络中的大数据数据信息词条进行特征显化处理,采用饼图对比方式对特征化词条数据进行网络互交频率展现,采用多维数据获取法,解决社交网络热点话题挖掘中出现的数据阻滞现象,满足社交网络中热点话题深度挖掘的要求;通过仿真实验对提出方法进行效率、准确度、速度测试,实验结果表明,提出方法对社交网络中的热点话题挖掘快捷、高效、实用性强。
社交网络;热点话题;挖掘;信息词条特征
0 引言
近年来,社会发展速度加快,信息通信科学技术发展迅猛。信息网络架构逐渐完善,光纤、4G网络基站等高速网络传输介质与技术的运用使人、机、物构成多元化大数据空间[1-2],标志着大数据时代的到来。互联网大数据时代,个人数据信息集中交互构建了相对稳定的社交网络空间。随着网络普及,社交网络成为获取外界信息、亲人朋友相互沟通交流的重要手段,并已成为当下热点话题发布的前沿阵地。社交网络中数据节点的构成特征性决定数据节点组成词条信息数据级别的重要性[3-4],部分数据节点特征构成的词条对其他数据节点特征构成具有决定性作用,对社交网络中探讨观点起到导向作用。社交网络空间内庞大的个人、社会信息数据交织汇总,形成信息交互网。社交网络信息交互网中信息数据时效性强,信息结构组成复杂,特征词条信息数据微差化[5]。深度挖掘社交网络信息交互网中时下热点话题数据成为各大网站平台关注的核心。
针对社交网络中热点话题深度挖掘提出大数据信息词条特征比对方法,社交网络信息交互网中的数据组成特征标签各不相同,对社交网络信息交互网中大数据数据信息词条的构成进行数据标签特征分类,到达社交网络信息交互网中数据特征化归类,运用谱线形式对特征化词条数据进行网络互交频率展现,采用多维获取数据算法,解决传统社交网络中热点话题数据检索过程中出现的数据获取阻滞问题。保证热点话题数据检索准确流畅。通过对特征词条一段时间交互数量的统计分析,达到深度挖掘社交网络中热点话题目的。通过仿真实验对提出方法进行测试,测试数据表明,提出的大数据信息词条特征比对方法在社交网络热点词条分析中,热点词条挖掘检索速度快、掘准确度高,满足社交网络中热点话题深度挖掘的要求。
1 社交网络中热点话题深度挖掘方法设计
1.1 社交网络中话题数据构成方式
社交网络信息交互网中,话题数据节点被多次交互, 形成交互节点数据集。交互节点数据集由热点话构成题词条特征数据信息、热点话题人群特征数据信息、热点话题社会特征数据信息三部分组成,统称特征节点数据。三部分信息数据交错排列。复杂、动态交互节点按照社交网络交互网信息交互频次排列式进行排列。排列式如下:
(1)
(2)
(3)
上述推导排列式中,a,b,c...n代表不同词条数据节点,φ为社交网络信息交互网中节点数据的交互频率,T为社交网络信息交互网中节点数据的交互间隔时间。i为特征数据标签排列位序值。根据推导排列式可以获得社交网络中话题数据排列构成方式如表1所示。
表1 社交网络中话题数据排列构成方式
由表1可以看出,社交网络中话题数据构成排列方式中词条信息特征标签节点数据并不明显且排列混乱。在社交网络信息交互网中很难进行重点话题词条挖掘。
1.2 社交网络中话题数据特征显化处理
通过上述推导排列关系式(1)、(2)、(3)生成的社交网络中话题数据排列谱系得知,社交网络信息交互网中构成词条数据的特征节点数据按照特征数据本体数据量进行分布,以交互频次间隔时间作为本体数据分布排列依据。但此种特征数据排列方式具有很强的隐蔽性,在大数据的社交网络信息交互网中很难检索到话题数据的特征数据标签或被其他类似词条特征数据标签,导致社交网络热点话题词条挖掘滞缓,准确度差。经统计,近5年社交网络中热点话题挖掘率呈下滑趋势,如图1所示。
图1 5年内社交网络中热点话题挖掘走势
通过图1直观反映出2012年以来,社交网络中热点话题挖掘率迅速下降,2014年下降率呈突发性下滑,对表1社交网络中话题数据排列结构进行特征数据节点优化处理。运用特征节点数据标签升序排列法,将话题数据排列算法进行频次系数取值位序调整,生成新的排列关系式,如下所示:
(4)
关系式(4)中对社交网络中话题数据特征数据标签排列位序值i进行了特征值升序排列处理,处理后的话题数据排列在保持本体数据位序不变的前提下,对特征数据标签进行特征显现升序排列。排列式如下所示:
(5)
关系式中,a,b,c...n本体词条数据排列位序受i系数取值影响,|n∈i≠0|条件保证了优化后的词条数据按照新顺序排列所构成词条本体与原本体词条一致。确保后期社交网络中热点话题词条特征数据挖掘检索的高效性。社交网络中话题数据特征化处理后排列方式如表2所示。
表2 特征化处理后社交网络中话题数据排列构成方式
由表2可以看出,经过特征显化处理,社交网络中话题特征数据排列呈升序化排列方式,将特征数据在社交网络中交互次数坐标系数引入,可得社交网络话题特征标签模型,如表3所示。
表3 社交网络话题特征标签模型
表3社交网络话题特征标签模型的建立,标志着社交网络话题数据特征标签显化处理全部结束,社交网络话题特征标签模型的建立为下面的社交网络中热点话题词条数据挖掘检索分析提供了平台环境。
1.3 社交网络中热点话题数据检索
通过对社交网络中话题数据词条构成节点特征数据的处理,社交网络中热点话题词条数据标签显现出来。怎样使热点话题词条在社交网络信息交互网中被快速搜索以及挖掘是本节处理核心。表3社交网络话题特征标签模型中采用STZP特征对比引擎,对模型中数据坐标系数进行交互频率关联化处理,得出热点话题词条特征空间系数值,特征空间系数值公式如下所示。
(6)
将模型内社交网络中热点词条数据坐标系数导入式(6),得出社交网络中热点话题词条特征空间细数如表4所示 。
表4 社交网络中热点话题词条特征空间细数值
通过表4,得到社交网络中热点话题词条特征空间系数值,将社交网络中热点话题词条特征空间系数值写入联通密度对比算法,进行热点话题词条检索。伪代码如下:
写入*D,Λ/MINPtst
/rig
D:一个含有n结合的特征数据集;
/**
算法引入:
检索特征词条标记为unvisit;
Do*
/null****
动态选取任意unvisit标签;
标记L为visit;
4.客户满意度分析机制,对于客户满意度的调查,可以通过各类型调查问卷来进行,但是这种方法最大的缺点就是被动,其效果与客户填写资料的主观性有着很大的影响。因此可以采取数据挖掘的方式来进行,通过采集和挖掘用户对商品、物流和客服的评价信息,进行情感分析实现主动式的客户满意度分析机制。这种分析机制可以主动、准确且客观的分析出客户对商品、物流公司和销售服务的各项调查数据,为改进平台的营销策略提供可靠的决策依据。
If L 为&特征空间范围至少存在MINPtst个系数值;
提取特征空间标签系数特征;
/*******
If N是unvisit
将L标记提取
*a坐标3.4执行检索
For N or L
*b坐标6.0 执行检索
For N or L
*c坐标9.7 执行检索
For N or L
数据结果返回/rid**
/****
伪代码中考虑到相近特征数据标签词条影响,对类似特征标签词条做了筛除设计保证社交网络中热点话题词条检索准确度。社交网络中热点话题数据检索结果曲线如图2所示。
图2 社交网络中热点话题数据检索结果谱图
社交网络中热点话题数据检索过程中除类似特征词条影响外,还存在数据数空间断裂无法对断裂数据空间信息进行检索挖掘的状况,提出大数据信息词条对比方法,采用大数据空间多维空间数据获取方法,来解决数据空间断裂造成的热点话题数据挖掘阻滞现象。
1.4 多维数据获取法
多维数据获取法是利用多条数据交互通道的设计,在大数据空间不同层面与不同数据域中获取数据,经过数据特征标签分析后,将关联性信息数据作为断层数据空间补缺数据面,满足社交网络中热点话题深度挖掘需要的数据特征表现信息。多维数据获取法采用DFIA数据信息断层算法,优化整合多通道资源信息数据。算法如下所示:
(7)
关系式(7)中,A、B代表获取数据的通道;N代表通道获取数据资源量系数;n代表通道数。大数据空间中满足A∈B∈N∈n≠0,数据空间层为开合数据状态,即数据特征标签信息获取匹配成功。若A∈B∈N∈n=0,数据获取通道A、B等通道出现数据断层,此时A∉B∉N∉n=0,各通道数据获取量与获取空间层次不在统一,转变为动态资源获取,达到多维数据获取的目的。工作原理如图3所示。
图3 多维数据获取算法工作原理
通过图3可以看出,多维数据获取算法中数据获取通道间及相互独立又相互依存,确保社交网络中热点话题深度挖掘过程中的数据准确与完整。至此,社交网络中热点话题深度挖掘方法设计全部完成。
2 实验与结论
针对提出的社交网络中热点话题深度挖掘方法进行仿真实验测试。实验设置传统方法与提出方法针对百度、新浪、搜狐、网易、腾讯5大网络平台数据进行采集,采集时间为一周。对采集后挖掘出的话题与时下热点话题进行对比,证实提出方法的有效性与准确性。测试详细参数如表5所示。
表5 实验测试参数
从表5中可以看出,提出的方法在社交网络热点话题挖掘数量上明显占有优势。证明了提出方法的高效性。将表5数据生成准确度饼图,进行社交网络中热点话题深度挖掘的准确度测试。生成图如图4所示。
通过图4的五组社交网络热点话题准确度饼图可以看出,百度、新浪、搜狐、网易及腾讯5大平台数据中挖掘热点话题饼图与热点话题基准量饼图重叠面积最大的为提出方法数据生成的饼图,证明提出方法在社交网络热点话题深度发掘中具有准确度高的优点,满足社交网络中热点话题深度挖掘的要求。
对提出的设计方法与传统方法进行社交网络中热点话题挖掘速度的测试,设置1500组热点话题分3组进行测,对比提出方法与传统方法全部挖掘所用时间。具体参数如表6所示。
图4 测试数据对比图
测试数据传统方法/s提出方法/s5006.83.5100017.69.5150030.919.5
通过表6数据对比,提出的社交网络中热点话题深度挖掘方法比传统方法挖掘热点速度短,提升空间大。综合上述两组测试数据,证明提出的社交网络中热点话题深度挖掘方法设计高效可行,热点话题挖掘准确度高,达到设计要求。
3 结束语
互联网技术高速发展,网络社交平台已成为众多信息发布交互平台。基于大数据环境下,针对社交网络中的热点话题深度发掘提出了设计方法,并通过仿真实验证明提出方法具有高效性与可行性。设计方法的测试成功为未来社交网络热点话题挖掘研究领域提供新的设计思路。
[1] 曹玖新,陈高君,吴江林,等.基于多维特征分析的社交网络意见领袖挖掘[J].电子学报,2016,44(4):156-162.
[2] 张继荣,王向阳.基于X ML数据挖掘的Apriori算法的研究与改进[J].计算机测量与控制,2016,24(6):156-162.
[3] 陈福集,胡改丽.网络舆情热点话题传播模式研究[J].情报杂志,2014,33(1):97-101.
[4] 黄发良,张师超,朱晓峰.基于多目标优化的网络社区发现方法[J].软件学报,2013,24(9):2062-2077.
[5] 刘 静. 数据挖掘技术在教务管理实践中的应用研究[J].电子设计工程, 2014, 22(24):1-3.
Depth of Hot Topics in Social Network Mining Method and Experimental Test
Jiang Wuxue
(Department of Computer Engineering, Dongguan Polytechnic, Dongguan 523808, China)
The Internet era of big data, social network data interaction is real-time, sociality, complexity.Multiple architecture data information are hot topics in data.Traditional social network hot topic mining methods retrieval speed slow, hot entry subject terms and shallow layer, fault data cannot be mining and so on a series of problems, how to social network hot topic in data mining, in order to solve this problem put forward comparing large data entry feature extraction method, the social network of big data features manifest data entry, and the pie chart can be compared to the way of network intercrossing frequency characteristic entry data show, the multidimensional data acquisition method, solve the hot issues of social network in the mining of the data block phenomenon, to meet the requirements of the hot topics in social network depth excavation.Through the simulation experiments on the proposed method efficiency, accuracy and speed test, the experimental results show that the proposed method is the hot topic in social network mining fast, efficient and practical.
social network; hot topic; mining; feature information entry
2016-09-05;
2016-09-27。
广东省产学研专项资金项目(2013B011301003);东莞市产学研合作项目(2014509102211);东莞职业技术学院政校行企项目(政201607)。
江务学(1976-),男,湖北黄冈人,硕士,副教授,CCF会员,主要从事服务计算方向的研究。
1671-4598(2017)02-0174-03
10.16526/j.cnki.11-4762/tp.2017.02.048
TP393
A