APP下载

基于多源数据整合的跨社交网络用户匹配方法

2021-11-17胡三宁李玉祥

计算机仿真 2021年4期
关键词:用户名账号社交

胡三宁,李玉祥

(1.河南科技大学应用工程学院,河南 三门峡 472000;2.河南科技大学信息工程学院,河南 洛阳 471000)

1 引言

越来越多的人频繁通过社交网络进行即时通信、发表言论和实时评论等,社交网络的迅速普及和广泛运用使人们的生活发生了巨大改变,一般情况下,一个人会注册多个社交账号,留下丰富的社交数据信息。但是同一用户在不同网络中的账号往往是相互独立的,如果能够跨网络对用户进行匹配,就可以实现数据的互相融合,最大限度地收集和完善用户个人信息。因此,对跨社交网络的账号匹配也逐渐成为了热门研究问题,众多学者对此进行了大量研究。

文献[1]提出了一种全视角特征结合众包的跨社交网络用户识别,该方法以账户的结构和属性特征为基础来对用户身份进行识别匹配,利用众包对待匹配用户的数量进行提高,采用全视角特征来评估用户相似度提升匹配准确率,最后通过两阶段迭代的方式完成用户的匹配识别。仿真结果证明,该方法能够有效地提高召回率,但是由于该方法只考虑到局部结构,导致全局准确率较低。文献[2]提出了一种基于融合表示学习的跨社交网络用户身份匹配,该方法利用待匹配账号的节点,通过融合算法将跨网络问题转为单一的网络问题,向量化表示账号用户名,并将拓扑结构信息与之融合,最后采用表示学习技术获得同时融合了用户名和拓扑结构的节点向量,完成用户身份匹配,经实验表明该方法能够有效地提升用户匹配的效果但是匹配准确率仍然较低,平均F1值只能达到79.7%。为解决上述问题,本文提出了一种基于多源数据整合的跨社交网络用户匹配方法,通过各个社交网络共同用户的对应关系及异质行为,对多源数据之间的知识层关联进行挖掘和整合,以摆脱在实际应用中对显性账号对应的限制,利用计算社交网络属性的相似度信息完成匹配全过程,实验表明本文方法具有一定的可行性。

2 多源数据整合下跨社交网络用户匹配方法

2.1 多源数据相关挖掘

为了更好地理解多源数据,用跨媒体分析作类比。跨媒体分析的核心是搜索不同模态数据,如图像文本、语音、视频、文本等之间的关系。同理,深度整合社交网络多元数据的核心问题也是对多源数据的知识关联挖掘。

在整合跨社交网络用户的多源数据时,需要获得用户在不同社交媒体网络中账号的对应关系[3]。在实际应用的过程中,不同的社交网络的用户并不能一一对应,大部分情况下同一用户并不会参与到整个社交网络中。与跨媒体分析的不同之处在于传统的多模态数据会假设有公共的语义子空间的存在,因此传统的多模态关联可以直接从底部进行,并且可以通过语义特征提取进行跨模态分析[4]。然而社交网络多源数据之间的相关联系要复杂很多,单一的关联准则不能普遍适用,从底层分析在一定程度上并不能解决问题,因此,本文通过各个社交网络共同用户的对应关系及用户的异质行为,对多源数据之间的知识层关联进行挖掘,以摆脱在实际应用中对显性账号对应的限制。多源数据知识包含微博类网站、媒体分享网站、购物网站等[5]。采用同一用户的共同账号之间的对应关系,及其在各个社交网络存在的交互行为,作为高层监督信息来对多源数据的知识关联进行挖掘。具体来说,根据用户在各个社交网络的交互行为构建相关网络知识空间,然后通过同一用户的多个账号对应关系作为链接,分析异质知识空间之间的关联,完成数据挖掘。

2.2 构建多源信息结构整合

多源数据挖掘后,对信息进行整合。假定社交网络的多源信息集合如下所示

I={Ik|k=1,2,…,m|}

(1)

度量集合可以表示为

V={Vk|k=1,2,…,m|}

(2)

式(2)也可以为集合I对应的信息结构集合,定义Vk表示信息Ik的内核特征点。建立数据结构集合V是对多源数据整合的基础,基本理论依据是假定各个数据的邻域半径为服从概率且不确定的密度函数,通过密度函数计算出相关数据结构给指定条件下k的数值,最后引入参数估计算法完成数据结构集合的建立[6]。

用d的值来表示不同的信息结构集合pk,Qk之间的差异特征。

(3)

在任意pk∈Rn附近必定存在一个为

(4)

使用高斯模型导入I密度函数,高斯函数模型连续分布可表示为

(5)

式中,μ表示期望值,σ2为方差。若定义

(6)

式中,X1为n维空间中矢量,Φ表示协方差矩阵,μ表示密度函数均值。针对任意Pi∈Rn,其概率密度函数均为δ(Pi,μ,Φ),假设信息集合Vk中的各个Pi均为独立的,则Vk的概率密度函数可以表示为

(7)

利用最大似然估计Vk中参数(Φ,μ)的值

O(μ,Φ)=Inδ(Pi,μ,Φ)

(8)

(9)

2.3 跨社交网络用户匹配方法

为了实现用户之间的匹配,需要计算用户连接的匹配度CR,其计算数学表达式为

(10)

式中,sin表示社交网络中用户共享入度好友数目,入度好友指的是用户在社交关系中好友的单向关注关系,sout表示共享出席好友数目。din-Bj和dout-Bj分别表示用户入度和出度,在此基础上引入用户朋友关系实现用户匹配计算。设定FAi和FBj为用户uAi、uBj的好友集,FAi∩FBj表示不同社交网络中共同好友,则不同用户的配有匹配度可以表示为

(11)

如果FAj=FBj,则FMD(uAj,uBj)=1。但是如果FAi的数量过少,会出现错误的匹配情况,如图1所示,当FA1=FB7={u3}时,则FMD(uA1,uB7)=1,使得uA1和uB7之间的配对发生了错误。

图1 网络对示例

为避免式(11)的错误匹配的发生,加入共同好友因子对其进行调整,调整后其表达式如下:

(12)

式中,|FAi∩FBj|表示已识别出用户的共同好友数目,FMD(uAj,uBj)的值越高,则代表识别的不同用户为匹配用户的概率越大。

拟采用用户名、链接地址URL(Uniform Resource Locator,URL 统一资源定位符)、姓名和Email信息来表示不同网络用户间的属性相似度。用户名和姓名均可以使用字符串来表示,本文首先采用Levenshtein距离对用户名进行度量[8]。不同用户名间的相似度可用下式进行计算

(13)

式中,lev(n1,n2)代表用户名n1和n2之间Levenshtein距离,l(ni)为字符数量。

姓名也会存在于多数社交网络中,因此将姓名列为在用户匹配过程中同等重要的属性字段。Levenshtein距离对字段顺序较为敏感,当同样的名字姓和名位置倒置时,通过Levenshtein距离度量的计算结果就会产生误差,因此本文采用更精准且适用于用户姓名属性的VMN对用户姓名进行度量[9]。VMN能够实现姓名信息模糊匹配,获得0或1的匹配结果值。

如果某一社交网络提供的URL信息能够识别其身份则可以通过该信息与相关社交网络链接地址进行对比分析,若分析结果完全相同,则反馈为1,反之为0。

若不同社交网络账号中用户的Email完全相同,则该属性相似度反馈为1,反之为0。假设不同社交网络的用户Email相同,则他们为同一用户的概率极高,通过Email来匹配用户的有效率也较高[10]。

通过各社交网络属性相似度可以获得用户u1、u2之间的相似度向量H(s1,s2),s1、s2分别表示各个属性向量[11-12]。将已知用户匹配对的相似度向量作为训练向量,各个不同信息属性相似度作为不同的向量维度值,在此基础上将身份匹配转化为二分类问题,即C(H(s1,s2))∈[0,1],C表示分类器,1表示u1和u2为一个同一个用户,反之二者为不同用户。若不同的社交网络用户uAi、uBj的社交网络账号属性向量为sAi和sBj,二者之间的用户匹配度可用下式进行计算

Mat(uAi,uBj)=C(H(sAi,sBj))×λ+FMD(uAi,uBj)

(14)

式中,C(H(sAi,sBj))∈[0,1]表示用户uAi、uBj属性相似度的分类结果,FMD(uAi,uBj)表示用户uAi、uBj的链接匹配度结果,λ表示已识别出用户的数量。将用户账号集合中的各个uselect作为输入项,然后在不同社交网络账号内搜索能够互相匹配的用户,若存在两个账户的匹配度较高,则视为两个账户匹配。

3 实验分析

3.1 实验准备

为了验证本文方法的有效性,选取Google+、Twitter、Facebook三个社交网络中获得的账号属性信息进行用户匹配实验。以Google+为用户属性信息来源网站,对Twitter、Facebook的非空主页链接、未失效且公开访问权限的网页,最终获得有效Google+账号3426个,Facebook账号3567个,Twitter账号4712个。

3.2 实验流程

获取实验用户属性的具体流程如下:

1)手机目标用户主页的链接地址URL。

2)借助第三方网站获得对应的账号ID。

3)通过官方的API(Application Programming Interface 应用程序编程接口)接口获取用户数据信息,并且将获得信息存入数据库中,以便实验使用。

最后,在获取的实验数据中选取用户填写最为齐全的Email信息、姓名、用户名和URL作为用户匹配实验的属性信息。

3.3 实验结果

在实验过程中,首先对各个属性的性能进行测试,测试结果如图2所示。

图2 社交网络账号各属性相似度分布

从图2中可以看出,Email信息和姓名在匹配时,同一用户和不同用户的相似度分布较为集中并且差别较大,具有较强的区分性,因此二者在匹配过程中的权重值应当较大。

为使实验结果更为准确,将本文算法和传统方法进行对比分析实验,采用准确率(precision)、综合评价指标F1和召回率(recall)作为评估算法性能的指标。其数学表达式可做如下表示

precision=tp/(tp+fp)

recall=tp/(tp+fn)

F1=2×precision×recall/(precision+recall)

(15)

式中,tp为经算法匹配后对应同一账号的对数,fp为匹配后对应不同账号的对数,fn为未被匹配的对应于同一账号的对数。三种算法的各个指标实验结果如图3所示,图中A、B分别表示本文算法和传统方法。

图3 不同方法性能对比图

从图3中可以看出,本文方法的准确率为98.2%、召回率为97.8%、F1值97.9%,由于本文对社交网络的多源数据进行了整合,并且计算了4种属性相似度,因此本文的各项性能均优于传统方法。综上所述,本文方法具有一定的可行性,并且匹配的准确性更优,能够较好地完成对跨社交网络用户的匹配。

4 结束语

本文提出的基于多源数据整合的跨社交网络用户匹配方法,首先通过数据整合获得各个社交网络的对应关系,然后对整合得出用户姓名、用户名、URL和Email的属性相似度进行计算,获得匹配度完成用户匹配的全过程。实验条件下,首先对各个相关属性的权重值进行分配,然后与传统方法进行对比,对比结果表明,本文方法的准确率、召回率更优,具有一定的可行性,但是还需在以下两个方面进一步改进:

1)当需要匹配的社交账号越来越多,数据越来越复杂时,则需要选择更多的相关属性,如用户地理位置、用户头像等来使匹配的准确率更高。

2)由于本文方法需要对每一个相关属性的权重进行分配,随着属性的个数增加,权重分配的计算规模变大,就可能导致匹配差生误差,因此对权重分配的计算方法还需要进一步的研究。

猜你喜欢

用户名账号社交
《现代临床护理》杂志投稿程序
《现代临床护理》杂志投稿程序
社交牛人症该怎么治
聪明人 往往很少社交
玩游戏没账号租一个就行
施诈计骗走游戏账号
社交距离
你回避社交,真不是因为内向
机智的快递员
Google Play游戏取消账号绑定没有Google账号也能玩