APP下载

社交网络中的用户行为分析

2019-01-28肖丽媛

中小企业管理与科技 2019年23期
关键词:聚类词汇社交

肖丽媛

(西北大学信息科学与技术学院,西安710217)

1 引言

在互联网技术快速发展的推动下,社交网站的出现和发展为社交网络用户行为的分析提供了更加详细的数据支持。通过对社交网络进行分析,一方面可以分析网络中用户的不同行为和特点,另一方面可以挖掘出隐含的信息。在对用户进行分析的时候,要从最基本的关注、评论、主页访问等互动功能方面分析,还要结合社交网络图的性质、活跃用户图等进行分析。

2 社交网络中用户分析的主要内容

2.1 社交网络结构用户行为分析

社交网络结构可以直观地表示用户社交行为的主要特征。分析点对应相关的图节点度分布、聚类系数、路径长度、强连通分支。节点度对应好友列表的数量分布,比如微博和Twitter 有向图的出度和入度表示了粉丝和关注人的数量。聚类系数的取值在1~0,局部性质显示网络用户的聚集程度。而社交网络中不同的社交圈和社交圈在罕见的相关节点的聚类系数大。路径长度与六度分割理论想相关联,即真实世界中的任意两人可以通过不超过六次社交关系的跳转建立联系[1]。

2.2 社交网络功能用户行为分析

用户行为是社交网络的核心,点赞、评论、关注这些都是用户在微观上对社交网络使用功能的反应。通过分析可以深入了解分析用户的特征,为社交网络平台的运营提供理论支持。例如,开发流的应用和维护升级服务等。从大学生使用的主流社交网络QQ、微博、微信等平台功能的使用上来看,发现最常用的社交功能有主页查看、日志、状态、相册、分享等。对社交用户单个个体的分析的局限性在于用户的单向交互行为,不能全部地展示用户之间的交互,所以对用户功能活动分析十分重要。目前,对社交网络行为的分析涵盖了用户互相访问的内容、访问的动机和访问内容。分析出用户产生交互行为的三大动机,即用户之间的联系、协同创造信息、分享信息。

3 社交网络用户分析算法

3.1 卡方统计量特征提取法

Chi-square statisitic 即CHI 的概念来自Contingency Table Test,这种方式对于t、c 的关联能够给出明确的表示。在运用这种方法的时候,要对照理论值和实验值,在此基础上充分探究存在的差异,在识别网络用户时,c 代替永不,而t 是代替yoghurt 的特征。t 与c 的关系是满足CHI 分布的,使用数学规律计算,检验最终的CHI 是否成正比。相关程度高则数值大,卡方统计量可以由以下的方式来表示,如X2(t、c)=(AD-BC)2(A+B)(C+D),其中A、B、C 表示不同的样本数,在这四个样本之中,AC 表示用户c,AB 则表示特征t,CHI 表示X2(t、c)意味着用户c 与t 之间的关联程度。当X2(t、c)等于0 的时候,两者属于独立的关系,当X2(t、c)不等于0 的时候,两者之间有关系,关联性的程度随着X2(t、c)增大而更强,因此,X2(t、c)的大小决定了特征和用户之间的关系[2]。

3.2 TF-IDE算法

TF-IDE算法这种统计算法常见于评估工作,主要是评估一个字、文件或是重要程度。如果需要评估的字词出现的次数多则显示文章就更重要,在语料库出现的频率与出现的次数有很大的关系。TF-IDE算法主要包含两个方面,term frequency 即TF,假设N 为需要查询的关键词,W1、W2 直到Wn,显示在同一个网页中的词汇频率是TF1、TF2直到TFn,那么最终的结果就是TF1+TF2+……TFn。但是需要注意的是term frequency 即单文本词汇的漏洞,例如,“北邮的学生”这个词的查询无效,即停止词,可以不考虑这个词的度量相关性。另一方面是inverse document frequency 即IDF,逆文本词汇,在信息检索的过程中使用的权重最多就是IDF,利用IDF 来加权求和,即TF1×IDF1+TF2 ×IDF2+……TFn ×IDFn;其中TF-IDE 算法的经典计算方式为weighTF-IDF(ti)=TF ti×IDF ti=tfi(d)×log(n+1/N),值得注意的是TFti表示ti 在文档d 中的频率TF,所以用tfi(d)进行计算。

4 结语

TF-IDE算法能够很好地体现出相关的用户行为特征,操作容易简便,但是仍需要不断更新算法,因为这种传统的算法在特定的算法中存在缺陷。可以使用信息检索的方式来对网络用户进行分析,进而分析网络用户的行为特征,使用特定的词汇对网络用户进行分类,采用TF-IDE 算法进行加权运算。但是这种分析方法存在一定的不足,需要不断更新、改进和完善,在以后的分析研究中,不断提高数据的准确性。

猜你喜欢

聚类词汇社交
社交牛人症该怎么治
聪明人 往往很少社交
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
社交距离
基于K-means聚类的车-地无线通信场强研究
本刊可直接用缩写的常用词汇
你回避社交,真不是因为内向
基于高斯混合聚类的阵列干涉SAR三维成像
基于Spark平台的K-means聚类算法改进及并行化实现