APP下载

基于Citespace的用户画像知识图谱研究

2022-04-29梁嘉欣何安迪彭梓航

计算机应用文摘 2022年12期
关键词:时间跨度画像数据挖掘

梁嘉欣 何安迪 彭梓航

关键词 知识图谱 用户画像

1引言

近年来,已有大量对用户画像的相关研究,而这些研究几乎是定性分析文献获得的成果。面对浩瀚的文献海洋,定性分析会导致分析结果过于主观和片面。本文以CNKI 中国学术文献库有关用户画像的文献为研究对象,运用CiteSpace 可视化软件,对2015~2020 年的用户画像研究成果进行分析,旨在总结出用户画像领域的研究热点和不足,以及未来用户画像领域的发展趋势和发展空间,为后续的研究工作提供参考。

2数据来源与研究方法

(1)数据来源

本文选取中国知网CNKI 中的学术文献网络出版总库作为数据来源,以“用户画像”为主题词进行检索(检索时间为2020 年8 月4 日),以2015 年1 月1 日为时间起点至检索时间共得到检索结果1557 条。经过查重、勘误、筛选等数据处理后,保留1500 条文献,导出纯文本格式文件作为本文统计分析的最终数据。

(2)研究方法

本文应用CiteSpace5.7.R1 软件对2015~2020 年用户画像的时间分布、学科领域、研究机构、研究热点和主题演变等进行分析,根据所选统计样本将分析时间设置为2015~2020 年,年代切分为1,选择标准为TOP N 和g?index,阈值设置分别为50、25。

3结果分析

3.1总体情况

(1)时间分布

用户画像领域发文量自2015 年呈现迅速上升趋势,2018~2019 年发文量呈现较大幅度的提升趋势。在精准营销领域,与用户画像相关的研究已经于2015年开始,直到2017 年发文量呈现大量增长态势,此现象说明精准营销研究者对用户画像的研究开展略迟,随社会各界和企业组织对用户画像研究开始重视,施行精准营销策略的企业也开始积极参与用户画像的理论实践。

(2)学科领域

基于CNKI 数据库的学科分类分布功能,及本文所选对应领域的部分文献进行统计分析,结果显示:用户画像研究成果共来自53 个学科领域,具备很强的跨学科特征。计算机、图书情报档案、工商管理和新闻传播是用户画像研究中最为集中的学科领域,商业经济、通信经济、工业经济、金融和控制工程等学科领域的研究成果也颇为丰硕,教育、信息通信、通信技术和法学等学科领域也有一定的研究成果。统计还显示,计算机、新闻传播、金融、教育、法学和电器工程等学科领域均有研究成果,具有较强的跨学科特性。

3.2研究机构及论文作者的类别

通过研究论文作者及研究机构的构成和关系,可以大概探寻某研究主题研究力量的构成以及研究基地和研究团队的组成情况。

(1)研究机构选择机构作为节点类型,使用聚类视角进行布局,经适当的节点调整后绘制出研究机构知识图谱。通过对研究机构合作网络图谱和其他相关后台数据的分析发现,用户画像的研究机构主要有高等院校和公司组织(集团)两大类。从研究机构知识图谱反映的信息发现,主要研究机构有吉林大学、燕山大学、江苏理工学院、华中师范大学、武汉大学,部分机构间还建立了合作关系。

(2)论文作者通过对CiteSpace 绘制的论文作者图谱和其他相关后台数据的分析后发现,教授、高校教师、公司组织(集团)研究者、硕士与博士研究生等是用户画像的主要研究者。其中,教授和高校教师组成的研究团队是用户画像研究的核心力量。各高校教师和教授主要以大数据为基础,对用户画像进行探索和研究,研究者的研究层次和规范性处于高水平,但研究的持续性仍有待进一步提升。

总体上,用户画像研究以高等院校和公司组织为主要研究基地,由高校教师、教授、硕士与博士研究生和公司组织的研究者构成研究群体,在高校核心作者的引领下,形成了深层次且有代表性的研究成果。

3.3研究的关键词

通过对关键词进行统计分析,得出“用户画像”“大数据”“精准营销”“数据挖掘”“推荐系统”“用户体验”“图书馆”“个性化推荐”“机器学习”和“深度学习”等是研究文献突出的关键词,反映用户画像研究主要应用和服务于大数据、精准营销、数据挖掘和推荐系统等工程。

3.4特征

用户画像研究文献共被引聚类图谱共包含400个节点,933 条连线,网络密度为0.0117,并形成了10个聚类,依次为聚类#0 大数据(big data)、聚类#1 推荐系统( recommended)、聚类# 2 用户画像( useportrait)、聚类#3 用户体验(user experience)、聚类#4数据挖掘(data mining)、聚类#5 图书馆(library)、聚类#6 随机森林( random forest)、聚类# 7 人工智能(artificial intelligence)、聚类#8K?means 聚类(K?meansclustering)、聚类#9 今日头条(Toutiao)、聚类#10 内容运营(content operation)。将2015~2020 年的1500 篇有关用户画像的文献进行文献共被引的时间线视角图谱分析,得到这10个聚类的具体研究内容和时间跨度。聚类#0 大数据(big data)的时间跨度为2015~2020 年,其主要关注的是在大数据环境下,基于大数据技术和大数据分析的用户画像研究,如刘颖针对数字图书馆用户画像模型建构工作中的用户数据分类效果较差的问题,提出了基于大数据技术的数字图书馆用户画像模型建构策略,并通过实验结果说明了该大数据技术能够有效解决分类效果差的问题[1] ; 聚类# 1 推荐系统(recommended)的时间跨度为2015~2020 年,其关注的主要是精准营销、精准推荐等问题,如在赵岩所做的基于用户画像的精准营销研究中,发现将用户画像运用于数字图书馆,可以更为精确地为客户推荐阅读资源,以提高用户的阅读体验,从而让阅读推广工作朝着更好的方向发展[2] ; 聚类#3 用户体验( userexperience)的时间跨度为2015~2020 年,此聚类主要研究的是提升服务质量的问题,用户体验是在大数据时代的各行业之间的一大竞争优势,也是最不可控的一个“变量”,但是用户画像技术的应用能很好地控制这个“变量”,提升用户体验,带领行业走向更高质量的发展;聚类#4 数据挖掘(data mining)的时间跨度为2015~2020 年,此聚类主要关注的是应用数据挖掘技术在庞大的数据库中挖掘出具有价值的数据信息,从而勾勒出用户的数据面貌,构建一个更为精准的用户画像系统。比如,唐慧祥等人基于海量淘宝用户行为特征数据利用Weka、R 数据挖掘软件,使用K?Means聚类算法为解决淘宝平台存在的用户定位不精确等营销问题提出了合理化的建议[3] ;聚类#5 图书馆(library)的时间跨度为2015~2020 年;聚类#6 随机森林(random forest)的时间跨度为2016~2020 年,和其他算法相比,随机森林在大量数据中的表现是较为良好的,但是其在噪声大的分类或回归问题上会过拟的问题已经得到了证实,因此将其运用到用户画像系统的构建上会因为干扰的存在而使系统的性能大大下降;聚类#7 人工智能(artificial intelligence)的时间跨度为2015~2020 年,面对庞大的用户数据,用户画像的出现无疑是人工智能时代的一大热点,相对于之前的语音识别技术和图片识别技术,用户画像的出现能帮助企业和商家在庞大的数据库中筛选出有用的数据,最终做到精准推荐和精准营销;聚类#8K?means 聚类(K?means clustering)的时间跨度为2016~2020 年,K?means 算法因其能够遵循一定的准则将需要找到一定关联性的事物进行分类的功能,现许多领域都会运用到K?means 聚类算法。将此算法与用户画像技术结合起来研究的文献数量同样不少。但是,经典k?means 算法存在在多视角聚类中容易陷入局部最优的缺陷[3] ;聚类#9 今日头条(Toutiao) 的时间跨度为2015~2020,“今日头条” 是一款成功的推荐引擎产品,也是在国内互联网中成长最快的产品,有关数据显示,截至2019 年12 月,头条号账号总数超过了180万,平均每天发布60 万条内容。由于实时更新的用户数据,使得其基于用户画像的个性化推荐系统具备很强的时效性特点[4] ;聚类#10 内容运营(contentoperation)的研究跨度为2017~2019 年。基于当下的新媒体环境,重要的不仅仅是内容质量本身,内容营销的渠道也一样需要受到重视。

4结论与展望

(1)结论

第一,近五年用户画像领域发文量呈现迅速上升趋势,学科背景丰富,具有跨学科特性。研究文献涉及学科宽泛,多出现学科交叉的情况,其中计算机学科领域较常见。

第二,国内用户画像研究力量主要有高等院校和公司组织两大类,院校之间、院校与公司之间存在合作研究的情况。以燕山大学和吉林大学等高校的研究者为核心研究力量,引领国内公司组织,发表了深层次且有代表性的研究成果。

第三,用户画像研究主要围绕“用户画像”“大数据”“精准营销”“数据挖掘”和“推荐系统”等主题展开。研究基于用户画像研究中数据基础层面、核心技术层面和实际应用层面,主要應用和服务于大数据、精准营销、数据挖掘和推荐系统等工程。

(2)展望

第一,用户画像研究领域以及应用领域的拓展。用户画像具有较强的跨学科性和学科交叉性的特征,所以在未来可以拓展出更多的研究领域。

第二,构建维度向多元化发展。如今,用户画像对于大量的非显性信息存在难以获取、研究不够深入的问题。此外,对于用户一天中随着时间动态变化的数据信息存在难以区别分析的问题。由此可以看出,用户画像的构建维度不够多元化,如何通过相关技术挖掘分析出实时变化的用户数据的规律,构建起更具真实性的用户画像是往后用户画像研究的一大趋势。

第三,更注重对用户隐私的保护。在如今这个互联网时代,数据量相较于以往多得多,所以隐私保护显得更加困难。因此,在用户画像研究领域,我们更应该注重隐私保护问题。

第四,创建出更精准的用户画像系统。人工智能的发展预示着相关技术的升级和突破,而更加先进的技术将构建出一个更能满足企业需求的用户画像系统。

猜你喜欢

时间跨度画像数据挖掘
威猛的画像
如虎
——黄胄画猫贺岁展
探讨人工智能与数据挖掘发展趋势
“00后”画像
画像
电视剧《父母爱情》受欢迎的原因探析
浅谈回顾性成就报道的创作思路
基于并行计算的大数据挖掘在电网中的应用
传感器网络分簇时间跨度优化聚类算法
一种基于Hadoop的大数据挖掘云服务及应用