基于卷积神经网络的字符级用户名嵌入跨社交网络身份匹配算法
2021-04-13刘甜甜
刘甜甜
摘要:针对现有基于用户名的跨社交网络用户身份匹配算法,匹配时需要设计复杂的用户名字符串统计特征用于机器学习模型输入,本文提出了一个端到端的基于卷积神经网络的用户名字符级嵌入身份匹配算法。
关键词:卷积神经网络;用户名嵌入;字符级;用户身份匹配
1 概述
跨社交网络用户身份匹配技术是跨多个在线社交平台进行信息融合的先决条件。现有的许多跨社交网络用户身份匹配模型主要是基于监督算法提出的,即给定一组标记的匹配用户,锚链接推理预测问题可以建模为二分类任务。
用户在选择用户名时通常会表现出某些行为模式,多个社交网络平台中倾向于使用具有个人特点的相似用户名显示自己的偏好,也具有独特性[1],因此基于用户名的跨社交网络用户身份匹配方法最简单直观,提取用户名特征,设计基于相似度的学习匹配模型来预测锚链接。
Zafarani 等人[2]通过对多个社交网络平台中用户名相似度的统计验证分析,以实证的方式研究了在不同社交网络平台中识别相应身份的可能性。Li等人[3]利用有监督的机器学习算法来实现用户身份匹配,该工作仅依靠不同的用户名命名方式来提取冗余信息特征,在此特征集上进行模型的训练。
用户名是最直观、最易获取的数据形式,基于用户名的跨网络用户身份匹配方法通过挖掘取名行为习惯特征进行匹配建模(如图 1),取得了一定的研究成果。但是特征提取方法复杂烦琐,针对此我们提出了基于卷积神经网络用户名字符嵌入的深度学习模型,避免了复杂的特征提取过程,提高了模型的泛化能力。
2 基于用户名嵌入的跨社交网络用户身份匹配算法
本文中提出了基于卷积神经网络的字符级用户名嵌入匹配算法,实现端到端的跨社交网络用戶身份匹配。
2.1 字符卷积神经网络
文本嵌入通常采用循环神经网络(RNN)来进行建模,因为RNN天生的循环自回归结构是对时间序列很好表示。而传统的卷积神经网络一般认为不太适合时序问题的建模,主要由于其卷积核大小的限制,不能很好地抓取长时的依赖信息。Zhang[4]等人于2015年首次提出基于字符级的卷积神经网络用于文本分类任务,初次探索了文本的字符级向量表示方法。
2.2 输入文本处理
深度神经网络模型的输入应是文本向量化表示形式,在将用户名文本信息输入神经网络模型前,需要将文本表示为模型可处理的数字形式。对该研究问题来说,输入样本应该是一对社交账号的用户名,首先需要从数据集中进行样本对的构建,再对样本进行初始的字符向量化表示。
2.2.1样本对构建
对给定的已知锚链接集合[AS,T], 我们首先将其中的一对匹配账号 [(vSi,uTj)] 的用户名通过空格连接起来,作为二分类模型框架下的一个正样本,随机抽取数据产生负样本对,使正负样本比例达到 1:1,产生可以用于模型训练的用户名对样本数据集。
2.2.2字符向量化
模型输入层要求文本数据形式为矩阵形式,首先将字符转化为可处理的数字化向量表示。为了比较用户名中所包含的大、小写字母对模型特征提取的贡献,分别采用了两种字母表进行用户名嵌入。一是大小为 70 的字母表,包含英文小写字母、数字和常见符号。大写字母通常会用在用户名首位,或表示用户名缩写,为了捕捉这一特性中的隐含特征,引入英文大写字母 26 个,将字母表扩充为 96 个,进行字符级的用户名文本嵌入,两种字母如表1所示,表中的字母基本包含了用户名样本中的所有字符。
根据相应的字母表的长度,将样本中每一个输入的字符初始嵌入转化为 [m] 维向量,将用户名字符序列转变为固定长度为 [l] 的 [m] 维序列,少数不在字母表中的特殊字符和空字符转化为维度 [m] 的全零向量,得到二维文本字符特征矩阵。对于其中的一个用户名对的样本 [N=(w0,w1,...,wn)],其中 [n] 表示用户名样本中包含的单词的个数,[wi ]表示其中的第 [i] 个词, [wi ]包含[ l ]个字符,每个字符的嵌入向量为 [cj],其大小为 m 维,因此可以用于输入卷积神经网络来处理每一个字符得到该用户名样本的字符级向量表示。
2.3基于卷积神经网络的字符级用户名嵌入匹配模型设计
卷积神经网络的核心结构主要包括卷积层、池化层以及全连接层,卷积层和池化层组合成为特征抽取器来提取用户名文本中蕴含的高阶语义特征。本文设计的跨社交网络用户匹配模型框架图如2所示。
由模型框架可知,该模型以定长的二维矩阵作为输入层,根据字母表选取的不同,输入的特征个数分别为 70 和 96,用户名文本特征向量的长度为该数据集中最大样本长度的字符数。之后与卷积核做卷积操作,对输入文本进行局部特征提取,经过池化层对卷积层输出的特征图进行最大池化操作,实现局部特征再提取。本论文中的模型设计了三个卷积池化层用于提取特征,将提取到的所有特征送入三个全连接层,由一个特征空间线性变换到另一个特征空间,最后通过softmax 分类器,输出分类结果。本论文中所提模型设计的卷积池化层和全连接层如下表 2 所示,全连接层之间加入dropout 层实现模型的正则化。
3 实验验证与分析
为验证所提算法的有效性,在真实社交网络数据集上进行了实验。实验数据集来源于zhang等人的论文[5], 是Foursquare 和 Twitter 两个社交网络。
3.1实验设置
我们采用以下基于用户名嵌入表示的基准算法进行了对比实验。
CharCNN Alignment-96。字母表采用96 个字符,全连接网络作为预测输出层。
CharCNN Alignment-70。字母表采用70 个字符,全连接网络作为预测输出层。
Word2Vec + Full Connected Layers。用户名通过 word2vec 嵌入表示,CharCNN 模型中全连接部分作为预测层。
Word2Vec + 随机森林。用户名通过 word2vec 嵌入表示,随机森林作为预测模型。
Word2Vec + SVM。用户名通过 word2vec 嵌入表示,支持向量机作为预测模型。
Word2Vec + GBDT。 用户名通过 word2vec 嵌入表示,梯度提升树作为预测模型。
3.2實验结果与分析
数据集划分为 80% 作为训练集,20% 作为测试集,与基于 word2vec 的用户名嵌入基准匹配方法做对比实验,得图3中的实验结果,横轴表示预测结果的评价指标,纵轴表示三种预测指标值的大小,不同的颜色分别代表了不同的用户名嵌入匹配方法。
对比不同方法的实验结果发现,基于卷积神经网络字符级用户名嵌入模型当采用 96 个字符作为字母表时,其 Precision,Recall 和 F1 值分别提升了 2.2%,3.09%,2.62%。因此实验结果表明在用户名嵌入研究问题下,由于用户名字符组成结构的特异性,大写字母对于字符组合语义特征的表达具有积极作用。除此以外,经典的 Word2Vec 文本嵌入方法无法在基于用户名嵌入的身份匹配这一问题上获得比较好的结果。实验证明了本文提出的基于卷积神经网络的字符级用户名嵌入匹配算法的有效性。
4总结
现有基于用户名的身份匹配算法从用户名字符串中提取各类字符统计特征以捕获用户名选取背后的行为模式,但设计特征提取过程复杂,不同数据集间特征设计规则差异较大,缺乏通用性。本文针对用户名数据,提出了基于卷积神经网络的字符级用户名嵌入匹配算法,这是一个端到端的深度模型框架,可以自动学习获得用户名字符组合模式的隐含特征。该模型避免了复杂的特征提取过程,同时较易对模型进行扩展,提高了模型对不同语言的泛化能力以及通用性。
参考文献:
[1] ZAFARANI R, LIU H. Connecting users across social media sites: a behavioral modeling approach[C]//Proceedings of the 19th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2013: 41-49.
[2] ZAFARANI R, LIU H. Connecting Corresponding Identities across Communities.[C]//Proceedings of the 3rd International Conference on Weblogs and Social Media, 2009: 354-357.
[3] LI Y, PENG Y, JI W, et al. User identification based on display names across online social networks[J]. IEEE Access, 2017(5): 17342-17353.
[4] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification[J]. Advances in neural information processing systems, 2015(28): 649657.
[5] ZHANG J, YU P S. Integrated anchor and social link predictions across social networks[C]//Proceedings of the 24th International Conference on Artificial Intelligence, 2015: 2125-2131.
【通联编辑:光文玲】