社交网络中大数据研究新进展
2017-03-11宋朋陆丹玥赵燕萍邵庆琳
宋朋 陆丹玥 赵燕萍 邵庆琳
(盐城师范学院公共管理学院 盐城 224002)
社交网络中大数据研究新进展
宋朋 陆丹玥 赵燕萍 邵庆琳
(盐城师范学院公共管理学院 盐城 224002)
大数据技术与传统机器学习算法的融合对数据挖掘产生了新挑战,已成为数据挖掘、机器学习、信息融合等领域的重要研究问题。本文综述近年来社交网络中大数据的分析方法及算法,大数据在市场营销、犯罪识别、疾病预警、舆情分析、隐私保护等方面的应用现状,在此基础上指出社交网络中大数据的研究趋势:深化隐私保护研究、推广离线聚类算法及在线分析技术、社交网络中的用户行为模式研究。
大数据 社交网络 舆情分析 隐私保护
随着数据体积、数量的逐渐庞大,传统数据管理方法越发难以实现对庞杂数据进行及时、高效处理的要求。大数据处理技术是对传统信息处理方式的更新,通过该方法可以实现数据的高效获取、存储,并可使分析更具价值,达到数据挖掘的真正目的。近年来,社交网络快速发展,但其交互性使数据越发无序、多样[1]15-18。就传统技术而言,从非结构化的社交媒体中抽取有价值的知识是较为困难的,面对如此庞大的数据体,如何实现数据的高效抽取,对有用知识进行有效管理已成为当今学者较为关心的问题[2]97-107[3]219-237。2016年9月1日,在CNKI数据库以“大数据+社交网络”为主题词检索得到1940篇论文,分别为2011年4篇;2012年95篇;2013年331篇;2014年557篇;2015年582篇;2016年369篇。可见,自2012年以来国内学者对大数据社交网络领域的关注度不断增加,提取1940篇论文的关键词,然后根据高频关键词反映的文献主题、2012年以来文献揭示的重要内容以及GoogleScholar中核心文献关注的研究内容,将近年来大数据在社交媒体使用的模型、算法,在市场营销、犯罪识别、疾病预警、舆情分析、隐私保护等方面的应用现状进行了综述,在此 基础上分析大数据的研究趋势。本文将近年来大数据在社交媒体使用的模型、算法,在市场营销、犯罪识别、疾病预警、舆情分析、隐私保护等方面的应用现状进行了综述,在此基础上分析大数据的研究趋势。
一、社交网络中的大数据分析方法及算法
大数据的分析方法属于数据挖掘、机器学习、信息检索以及自然语言处理等领域的内容。近年来,社交网络中大数据的分析方法包括网络分析方法、社群识别方法、文本分析方法、信息扩散模型和方法、大数据信息融合方法等。
1.网络分析方法。在社交网络中个体间进行交流,根据用户的偏好和关系提供信息已经成为集体智慧抽取非常重要的信息源,Twitter每天可生成40亿条新数据。这些关联网络可以以图表、网络的方式实现知识抽取。一般情况,社交网络的重要性或影响力通过中心性测度可以进行表示,但这些方法在大规模网络中计算的复杂度较高。为了解决这一问题,研究人员试图从大规模图像分析中寻求解决方案。Apache Giraph采用迭代计算方法,对交互式的图形图像进行处理[4]1403-1408。该方法适用于密集型一般化的机器学习算法,此外对资源管理提供支持,使众多计算架构在同一个Hadoop簇中计算、存储,相同的数据可以利用MapReduce或Spark进行分析。架构采用节点到节点的映射方式,每个节点可以获取到邻近节点的状态。两个节点之间的距离通过节点与最大相邻节点之间的运行时间进行定义。
2.社群识别方法。社群识别、发现是社交网络分析领域研究较多的内容[5]26-32,该领域的研究和识别一般结合了可视化方法。可视化中图像簇的判断采用了随机游动、频谱聚类、模块最大化及统计力学等技术[6]75-174。Girvan及Newman基于节点之间最短路径采用“边界中介”相似度测度方法,利用边界识别将社群及子集去掉,实现不同社群的隔离[7]026113,但该算法对大型网络计算的复杂度较高。目前,有很多算法基于近似模块化方法实现在较短时间内的社群识别。Newman提出第一模块最大化技术[8]1-5,由于缺乏相邻矩阵,导致执行效率的下降。Clauset等人使用模块变量最大化方法改进了这一算法,使算法执行效率大大提高。
在非邻近社群的关系发现中,节点相互重叠是这一网络的特征,网络中的一个节点可能从属于几个不同的簇,为了解决这一问题引入模糊聚类算法[9]1760-1774。Xie等将重叠社群发现算法的研究现状进行了综述,研究发现在一些低密度重叠网络中OSLOM以及COPRA技术表现较好;在高密度重叠性及高重叠多样化网络中SLPA以及Game技术表现的相对稳定[10]43。
3.文本分析方法。文本在社交网络所收集的非结构内容中占有很大比重。采用信息抽取技术从文本中抽取实体及其关系,利用向量空间模型对文献或文本内容进一步推断,得出新的、有意义的知识。文本分析的这一方法可以实现摘要内容的自动获取。在文本分析算法中,将每条文献中的术语通过向量频率表示出来,然后再利用术语频率将文本中出现的特殊词汇进行分割。文本分析另一种较为常用的技术为潜语义索引方法,基于术语矩阵奇异值分解法,将文本及术语映射为低维空间的自动化索引方式,通过文本表达语义概念。潜语义索引方法中另一种技术基于概率主题模型,通过术语共现模式识别主题关联。
在文本分析中无监督机器学习方法的适用性较为普遍,该方法不需要前期的人工处理,可以应用于大多数文本数据之中。通过聚类技术在文本数据中发现潜在的信息及模式,在未标记的数据集中自动搜索、组织文本成为类或相似的群。一般情况下,文献聚类将文本实体分为特定数量的非聚合簇,通过对预先定义的标准功能及层级算法进行优化[11]51-59。
4.信息扩散模型及方法。庞大的数据量、复杂的社交网络结构使用户理解信息本质内容变得更为困难。为了解决这一问题,相关学者提出采用信息扩散模型对大量时间序列数据进行控制,典型的信息扩散模型包括解释模型和预测模型。Lin等提出了象征性时间序列表达方式,采用不同的数据挖掘机制进行时间数据的聚类、分类、查询及异常检测[12]376-387。该模型较为典型的应用是对网络传播事件及流行话题的识别、发现。唐思瑜使用METIS工具对微博用户关系网络进行子图划分构建了微博网络中基于隐马尔科夫理论的信息扩散模型和基于条件随机场的多信息扩散模型,将这两个模型用于用户行为预测和舆论引导[13]。
5.大数据信息融合方法。不同来源大数据融合后,可以为用户提供更好的服务。语义异构在基于本体的信息融合中是非常重要的问题,融合体现的形式不同对研究领域便会产生不同影响。社交网络与其他语义网络有较大差异,语义异构不但包括语言差异而且包括不同概念结构之间的匹配问题。为了消除传统网络整合中的数据异构难题,使用基于RDF模型的链接开放数据作为统一模型实现数据在不同资源层级中的传输,从而实现构建链接数据的目的[14]37-42。陈琳针对传统多源信息融合方法现存的难点与不足之处,利用数据驱动的思想,提出了基于数据驱动的多源信息融合方法,结合基于声音信息融合的地面车辆声辨识实例,阐释了该方法在实例中通过联合利用基于数据的特征集与基于模型的特征集[15]。
二、大数据在社交网络中的应用
将大数据应用于社交媒体进行知识发现,可以提高个人及企业的决策[16]1165-1188。利用商业情报提供的数据可实现为企业更好地了解行业、市场,进行商业决策[17]。
1.市场营销。与传统的模式策略相比,社交网络以及云计算为消费者获取资讯提供了机会。领先的电子商务企业,如Amazon及eBay采用推荐系统,给传统的营销模式带来了重大变革。社交网络分析通过抽取用户观点,为企业提供更多广告宣传及市场营销的契机。Ma等提出使用热扩散过程对社交网络营销进行建模[18]233-242。Maurer和Wiegmann对社交网络中营销的有效性进行了分析,通过Facebook广告发布相关情况了解用户感知[19]485-498。但调查发现,大多数参与人员认为Facebook中的广告对他们的购买决定是没有帮助的。Trattner和Kappe认为,Facebook中不同模块广告的投放数量能对用户的访问量产生影响,从而影响网络平台的利润。此外,他们还提出了对Facebook中用户识别进行实时监控的方法[20]86-103。
2.犯罪预警。市民与政府机构之间的交流大多通过电话、会议、电子邮件、网络平台等形式。上述大部分交流内容以纸质或数字形式进行归档,利用自然语言处理技术进行文本分析,提高了执法的有效性。决策支持系统将自然语言处理技术、相似性方法以及分类方法进行了整合,实现犯罪案件的自动分析。因为罪犯行为往往具有重复性,通过对犯罪数据分析识别出这一模式,发现并揭示犯罪及其与犯罪相关的关系。将相同或相似犯罪活动进行归类,为犯罪趋势预测提供依据,有助于逮捕嫌疑犯、预防犯罪。Phillips和lee基于地理知识发现技术、整合数据集以图像建模对特定区域内的地理空间分布情况进行存储,这些图像可用于揭示相似地理空间分布的特征数据集[21]11556-11563。实验结果表明,该方法可以实现犯罪事件中社会经济、社会人口及空间特征的协同分布揭示。Gerber提出了采用时空标记信息进行犯罪预测的方法,采用微博技术,将语言分析及统计主题建模应用其中,自动识别美国城市中的主题[22]115-125。实验结果表明,该方法相比于基于KDE的标准方法而言提高了犯罪预测的效果。
3.流行病情报。流行病预警可作为早期识别、评价和潜在公共健康风险适时预警的依据。目前,文本挖掘技术已应用于社交网络、微博、数字新闻媒体以及媒体信息内容的分析之中,从非结构文本数据中实现实体识别、文本分类、术语抽取以及关系提取。Aramaki提出通过对各种机器学习方法进行比较,对微博相关的流行病进行分类的方法,将其分为积极和消极两类[23]293-314。实验结果表明,支持向量机模型采用多项式核函数获得了最高的准确度以及最短的训练时间。
近年来,使用信息挖掘技术的许多监测系统已应用于公共健康组织中,如世界健康组织以及欧洲疾病预防控制中心。早期的跟踪和监测对于降低流行病影响是非常重要的。2006年BioCaster提出BioCaster系统,用于对网络媒体数据进行监测。该系统不断对1700个RSS、Google新闻、世界卫生组织、专业医疗邮件、欧洲媒体监控以及其他数据来源的文件进行分析[24]45-59。抽取的文本基于主题内容进行分类,利用地理信息绘制到谷歌地图中。该系统包括主题分类、命名实体识别,定位探测以及事件识别四个主要阶段。使用朴素贝叶斯分类法将文本分为相关或非相关,然后将相关文本与关于疾病、病毒、细菌相关的18个本体概念关联起来进行症状检索[25]27-35。
4.舆情分析。大数据时代,对海量网络数据进行快速分析并建立舆情监控、引导机制,在此基础上为决策者提供支持已经为当今学者较为关注的问题。大数据时代的社会舆情分析与传统的社会舆情分析相比,更加注重庞杂、多样网络数据的搜集、存储和清理,进而从低价值密度的异构数据中获取舆情资讯[26]127-151。一般而言,网络舆情的挖掘包括目标话题识别、新信息发现及特定热点问题关注等内容,通过聚类算法将识别内容发送给用户然后进行新闻事件及其发展轨迹的自动跟踪。在网络舆情挖掘中,目前较为常用的技术包括Single-pass聚类算法、K-means、KNN最邻近法、支持向量机及神经网络聚类算法[27]1-6。马梅等在分析大数据及网络舆情相关概念和特征的基础上,构建了基于大数据的网络舆情分析系统模型。将分布式并行数据处理技术引入到舆情分析的各个关键步骤中,对应用大数据技术处理网络舆情数据进行探索[28]25-28。黄微等以新浪网站数据为基础,通过复杂网络分析的方法测度衍变话题网络中结点的中介中心性及衍变话题的次第组配网络拓扑,识别热门事件衍变子话题的互信息度构建衍变话题网络,为热点事件舆情的危机定性、技术干预、舆情跟踪反馈等工作提供实践依据[29]62-66。
5.隐私问题。保护个人的隐私从本质上而言,是防止数据不被泄露。从已有文献的研究来看,大数据环境下的隐私问题一直是学者关注的重点。当前,有关数据隐私保护研究主要集中于隐私数据加密、差分隐私保护、大数据应用实践的隐私保护等方面[30]945-959。Hu等[31]628-639提出统统加密隐私存储及索引技术,可实现数据在云平台环境下的隐私保护;Zhang等[32]1008-1020为了保证数据传输过程中的安全性,提出基于贝叶斯的随机模型和公钥加密方案;Daniel等[33]28-44为了避免用户发布和共享信息时的隐私泄露风险,提出数据匿名算法。王艳等[34]138-143提出通过制定数据共享的安全管理和读者隐私保护策略,保证对采集、存储和多用户共享过程的数据进行监控追踪。翟志刚等[35]951-960提出最小扰动混合角色挖掘方法,首先以自顶向下的方法预先定义部分角色,然后以自底向上的方法挖掘候选角色集合。张颖君等[36]1252-1260引入了尺度的概念提出基于尺度的时空RBAC访问控制模型,使得访问控制策略的表达能力得到增强,也增强了模型的安全性。
三、社交网络中大数据的研究趋势
本文将近年来大数据在社交网络中使用的分析方法和算法,在市场营销、犯罪识别、疾病预警、舆情分析、隐私保护等方面的应用现状进行了综述,基于前文的分析,社交网络中大数据的研究趋势有以下几个。
1.深化隐私保护研究。在大数据社交媒体时代,社交网络中的隐私保护是重要问题之一。隐私保护主要涉及到两个方面:一是数据获取问题,实现数据交互及可视化图像与数据匹配是本领域今后应关注的重要内容;二是评价问题,对真实数据隐私保护服务进行评价和检测是一项较为复杂的工作。目前,大数据中的隐私保护主要通过访问控制技术,如自主访问控制、强制访问控制等封闭环境下的访问控制。而在大数据时代开放式的环境下,对访问控制有更为精细化的要求,在未来根据不同角色的授予不同的访问控制权限,以及基于用户属性、资源属性、环境属性等组合进行用户权限的访问,即基于角色的访问控制以及基于属性的访问控制将成为未来开放环境下大数据隐私保护的研究方向。
2.推广离线聚类算法及在线分析技术。大数据领域目前面临的主要挑战在于采用何种有效手段实现海量数据中的挖掘。传统挖掘采用标签方法以及非监督方法,标签方法需要实时分析耗时耗力;在非监督方法需要对聚类数据进行前期处理。当前研究人员提出采用离线聚类算法进行离线分析,以及对实时更新数据进行在线分析技术。随着数据体量的越发庞杂,相关学者正在研究采用新一代在线流媒体算法,将K-mean、EM与MapReduce及基于图像计算的方法进行整合。随着人工智能、机器学习技术的不断发展以及各种新方法和新技术的涌现,目前数据挖掘中的聚类分析方法主要围绕样本的相似性度量、样本归属关系、样本数据的前期处理、高维样本聚类、增量样本聚类等几个方面展开研究。
3.识别社交媒体中的用户行为模式。数据融合及可视化是大数据领域的学者较为关注的两个问题。通过对大量分散、异构的流媒体数据进行整合及可视化分析,可以采用更可靠的方法在社交媒体中实现数据融合;实现基于社交媒体动态分析的个体及群体行为模式揭示;通过聚类及相似学习方法便于社交媒体中的事件分析。如何实现社交媒体及其他领域不同时间,空间维度的数据可视化,进而实现对人们的行为数据进行揭示,对大规模客体记录能力进行反应将成为今后数据可视化的研究方法。
[1]胡吉明.社会网络环境下的信息传播机制[J].情报科学,2015,33(1).
[2]Wu X,Zhu X,Wu G Q,et al.Data m ining w ith big data[J]. Know ledge and Data Engineering,IEEE Transactions on,2014,26 (1).
[3]王莉,程学旗.在线社会网络的动态社区发现及演化[J].计算机学报,2015,38(2).
[4]Salihoglu S,Shin J,Khanna V,et al.Graft:A debugging tool for apache girap[C]//Proceedings of the2015ACM SIGMOD International Conference on Managementof Data.ACM,2015.
[5]Clauset A.Finding local community structure in networks[J]. Physical review E,2005,72(2).
[6]Fortunato S.Community detection in graphs[J].Physics reports, 2010,486(3).
[7]Newman M E J,Girvan M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2).
[8]Snijders C,Matzat U,Reips U D."Big Data":big gaps of know ledge in the field of internet science[J].International Journal of Internet Science,2012,7(1).
[9]Dong Y,Zhuang Y,Chen K,et al.A hierarchical clustering algorithm based on fuzzy graph connectedness[J].Fuzzy Sets and Systems,2006,157(13).
[10]Xie J,Kelley S,Szymanski B K.Overlapping community detection in networks:The state-of-the-art and comparative study [J].Acm computing surveys(csur),2013,45(4).
[11]Provost F,Faw cett T.Data science and its relationship to big data and data-driven decisionmaking[J].Big Data,2013,1(1).
[12]Hu C,Xu Z,Liu Y,et al.Semantic link network-based model for organizing multimedia big data[J].IEEE Transactions on Emerging Topics in Computing,2014,2(3).
[13]唐思瑜.基于隐马尔科夫理论及条件随机场的微博网络信息扩散模型[D].广州:华南理工大学,2014.
[14]张兴旺,李晨晖.数字图书馆与大数据:研究范式的分析,比较与融合[J].情报理论与实践,2015,38(12).
[15]陈琳.基于数据驱动的多源信息融合技术研究[D].杭州:杭州电子科技大学,2012.
[16]Chen H,Chiang R H L,Storey V C.Business Intelligence and Analytics:From Big Data to Big Impact[J].M IS quarterly,2012,36 (4):.
[17]Davenport T H,Harris JG.Competing on analytics:The new science of w inning[M].Harvard Business Press,2007.
[18]Ma H,Yang H,Lyu M R,et al.M ining social networks using heat diffusion processes for marketing candidates selection[C] //Proceedings of the 17th ACM conference on Information and know ledgemanagement.ACM,2008.
[19]Maurer C,Wiegmann R.Effectiveness of advertising on social network sites:a case study on Facebook[C]//ENTER,2011.
[20]Trattner C,Kappe F.Social stream marketing on Facebook:a case study[J].International Journal of Social and Humanistic Computing,2013,2(1).
[21]Phillips P,Lee I.M ining co-distribution patterns for large crime datasets[J].Expert Systemswith Applications,2012,39(14).
[22]Gerber M S.Predicting crime using Tw itter and kernel density estimation[J].Decision Support Systems,2014,61.
[23]Fan J,Han F,Liu H.Challenges of big data analysis[J].National science review,2014,1(2).
[24]Bello-Orgaz G,Jung J J,Camacho D.Social big data:Recent achievements and new challenges[J].Information Fusion,2016(28).
[25]Liyanage H,de Lusignan S,Liaw S T,et al.Big data usage patterns in the health care domain:A use case driven approach applied to the assessment of vaccination benefits and risks. Contribution of the IM IA Primary Healthcare Working Group[J]. Yearbook ofmedical informatics,2014,9(1).
[26]Tien J M.Big data:Unleashing information[J].Journal of Systems Science and Systems Engineering,2013,22(2).
[27]夏火松,甄化春.大数据环境下舆情分析与决策支持研究文献综述[J].情报杂志,2015,34(2).
[28]马梅,刘东苏,李慧.基于大数据的网络舆情分析系统模型研究[J].情报科学,2016,34(3).
[29]黄微,李瑞,高俊峰.网络舆情信息的衍变话题细分及组配规律研究[J].情报资料工作,37(4).
[30]黄刘生,田苗苗,黄河.大数据隐私保护密码技术研究综述[J].软件学报,2015,26(4).
[31]Hu H,Xu J,Xu X,et al.Private search on key-value stores w ith hierarchical indexes[C]//2014 IEEE 30th International Conference on Data Engineering.IEEE,2014:.
[32]Zhang X,Liu C,Nepal S,et al.A hybrid approach for scalable sub-tree anonymization over big data using MapReduce on cloud [J].Journal of Computer and System Sciences,2014,80(5).
[33]Abril D,Navarro-Arribas G,Torra V.Spherical m icroaggregation:Anonym izing sparse vector spaces[J]. Computers&Security,2015(49).
[34]王艳、乐嘉锦、孙捷等.网络用户行为的隐私保护数据挖掘方法[J].计算机工程与应用,2012,48(13).
[35]翟志刚,王建东,曹子宁等.最小扰动混合角色挖掘方法研究[J].计算机研究与发展,2015,50(5).
[36]张颖君,冯登国.基于尺度的时空RBAC模型[J].计算机研究与发展,2015,47(7).
New Progress of Big Data Research in Social Network
Song Peng,Lu Danyue,Zhao Yanping,Shao Qinglin
(Public Management School of Yancheng Teachers University,Yancheng 224002,China)
The combination of big data technology and traditionalmachine learning algorithms has generated new challenges for data m ining,and has become an important issue for a large number of research areas such as data m ining,machine learning,information fusion and so on.In this paper,the analysismethod and model for big data in social network and the application of big data to marketing,crim inal identification,disease warning,public opinion analysis,privacy protection and etc.are summarized.Based on that,the research trend of big data in social network is pointed out,namely strengthening privacy protection,promoting offline clustering algorithm and online analysis technology,and carrying on user behavior pattern research in social networks.
big data;social network;public opinion analysis;privacy protection
本文系校级青年基金(社科类)“面向社会治理的农村留守儿童信息需求计量本体构建研究”以及大学生创新项目“基于电商平台用户行为分析的商品推荐优化策略”(省级指导项目)。
宋朋,博士,讲师,研究方向为电子政务;陆丹玥,2014级历史学本科生;赵燕萍,2014级历史学本科生;邵庆琳,2014级历史学本科生。
10.16565/j.cnki.1006-7744.2017.12.18
G259.2
A
2016-12-31