基于CiteSpace的我国用户画像技术研究热点与趋势分析
2022-10-19彭雯
彭雯
(郑州大学信息管理学院,河南 郑州 450001)
1 引言
交互设计之父A.Cooper最早提出用户画像(User Profile)的概念,他将用户画像定义为真实用户的虚拟代表,认为用户画像是建立在一系列真实数据之上的目标用户模型[1]。在当今互联网和大数据时代背景下,用户信息纷繁复杂,将用户的具体信息抽象为标签,从而利用标签将用户形象概念化,是为用户提供针对性服务的关键所在。作为一种勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像的应用场景和研究领域不断扩展延伸。在此背景下,探究该领域研究的热点,洞察研究热点的演变趋势具有重要意义。
2 数据来源与研究方法
2.1 数据来源
以中国知网(CNKI)作为文献数据来源,设定检索条件为“主题(精确)”,检索词为“用户画像”,来源类别为学术期刊,时间范围不做限制,检索时间为2022年5月21日。最终获得有效文献1809篇作为本文进行文献计量统计和可视化分析的数据源。
2.2 研究方法
知识图谱(Knowledge Graph),在图书情报界称为知识域可视化或知识领域映射地图,是通过将信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。CiteSpace是一款用于分析科学文献信息的可视化软件,由美国德雷塞尔大学陈超美教授应用Java语言研发。
本文基于文献计量学方法,利用CiteSpace(6.1 R2)软件和中国知网自带可视化工具生成文献时间分布图、关键词聚类图谱、关键词时间线图谱、关键词突现分析图谱,分析目前我国用户画像相关文献的研究热点和演进趋势,从而描绘国内用户画像研究的知识全景。
3 研究结果与分析
3.1 文献基本特征
借助CNKI检索结果自带的可视化功能,用户画像相关文献总体发文趋势如图1所示。通过图1可以看出,国内对于用户画像的研究起步较晚。CNKI收录的我国最早的一篇关于用户画像的期刊文献发表于2011年,2011—2016年是我国用户画像研究的起步阶段,该阶段文献数量较少且增长速度缓慢;2016—2019年是快速增长阶段,用户画像相关研究呈现爆发式增长态势;2019—2021年是波动式增长阶段,2019—2020年度相关文献数量增幅较小,但2020—2021年度再次出现大幅度增长,图中2022年发文量非全年统计数据。目前,我国用户画像相关研究文献整体上仍呈现上升趋势。
3.2 研究热点分析
关键词是对文章内容的高度凝练与总结,关键词频数可以直观地反映某一知识领域的研究热点。根据研究预定的标准和步骤,设置时间范围为2011—2022年,以“Keyword”为节点,设置阈值“TOP 30 per slice”,通过“Pathfinder”剪枝方法修剪全局网络,运行后生成用户画像领域研究热点关键词图谱,该图谱共包含699个节点、1253条连线,网络密度为0.0051。筛选出频率在10以上的关键词,整理得到热点关键词频次表(见表1)。
表1 用户画像研究热点关键词
除“用户画像”这一自身指向性词语外,出现频次最高的关键词依次为:“大数据”“精准营销”“图书馆”“人工智能”“数据挖掘”“精准服务”等。
在关键词共现网络图谱的基础上,采用对数似然比(loglikelihood ratio,LLR)算法,生成关键词聚类网络图谱(图2)。其中,图谱信息模块性(Q值)为0.6835>0.3,图谱轮廓系数(S值)为0.8946>0.5,表明该关键词聚类网络图谱聚类结果合理,基本可以反映该领域的研究情况。
图2 关键词聚类网络图谱
综合关键词共现与关键词聚类的分析结果,结合查看关键词节点“List citing papers to the cluster”所包含的文献内容,将用户画像技术的相关研究概括为以下几个方面:
“大数据”“人工智能”“数据挖掘”“深度学习”等词语在热点关键词中共计出现421次,占全部30个热点关键词的比例超过20%。用户画像的构建是一个搜集用户特征数据、研究用户信息、细分标签、丰富用户画像描述的过程[2],数据采集、数据挖掘和分类算法是用户画像构建过程中关键的核心技术,涉及大数据、人工智能、机器学习、社交网络等多种技术和算法。可见,以大数据为代表的新兴信息技术是构建用户画像的基础,同时用户画像作为一种新型的数据分析与挖掘工具,也加速了信息技术手段的发展与创新。
用户画像技术随着大数据时代的到来而逐渐兴起,同时也扩展了大数据的应用深度和广度。“精准营销”是用户画像技术的关键应用场景。在热点关键词中,“精准营销”及其同义关键词出现了167次,在各种应用场景类词语中出现频次最高。2011年以来,“用户画像”概念一经提出,便被率先应用到电子商务领域的精准营销中。电商企业实行精准营销的重要基石是如何在海量信息中攫取关键信息挖掘出用户行为特征[3],用户画像为其提供解决方案。电商企业通过构建用户画像识别目标用户群体、准确定位市场,打破传统营销模式,大大提高了营销成功率。
“信息服务”“知识服务”“图书馆”“阅读推广”等关键词共计出现113次,仅次于“精准营销”,表征用户画像在图书情报领域的广泛应用。当下,图书馆所依赖的知识创造与阅读环境正在从信息时代进入到“数据时代”,多种形态资源和多样化的数据构成了可充分集成关联的数字图书馆服务的大数据环境[4]。个性化、专业化的阅读推荐和知识服务是数字图书馆未来的发展方向,而构建用户画像以深刻理解用户需求、洞察用户偏好是有效的实现途径。目前,图书情报与数字图书馆领域学者已在包括智慧阅读推荐、知识发现系统、知识社区用户画像构建、资源推荐等主题开展用户画像的应用进行了探讨[5]。
此外,以“短视频”为代表的社交媒体、网络社区也是用户画像技术的应用场景之一。如陈烨等研究高血压主题下的用户社交行为数据,分析用户社交网络结构和用户社交类型的特征,进而生成面向高血压主题的用户画像[6]。在电子技术和大数据不断发展的背景下,为了能在网络中更加快速精准地找到目标用户,就需要利用相关分类技术划分用户的身份等各类属性信息,通过画像构建可以更进一步了解网络社交用户的供求信息,对行为习惯等数据进行准确定位,便于了解用户信息的全貌[7]。
3.3 演变趋势分析
3.3.1 关键词时间线图谱
关键词时间线图谱通过详细展示各聚类模块内部关键词产生的时间跨度和关联,能够清晰展现该领域研究的演进过程。Citespace控制面板选择布局(Layout)模块,选择“timeline”绘制用户画像聚类的时间线图谱,如图3所示。
图3 关键词时间线图谱
3.3.2 关键词突现图谱
关键词突现是指在短时间之内该词的出现频率显著增加,表明某段时间内该领域的研究备受科研人员的关注,据此可以判断该领域的前沿进展和研究趋势[8]。Citespace控制面板选择突现(Burstness)模块,生成2011—2022年用户画像研究突现词知识图谱,如图4所示,共13个突现词。其中,横线加粗部分表示该词出现并持续时间,横线较细部分表示该词突现成为热点的持续时间。
图4 关键词突现图谱
观察图4,从突现度看,排名前5的关键词依次为机器学习(2.41,2017—2018)、聚类分析(2.37,2020—2022)、用户体验(2.23,2020—2022)、今日头条(1.79,2017—2018)和智能化(1.55,2019—2020)。从研究的持续时间看,“云计算”和“云平台”是最早突现的关键词。
综合图3、图4的可视化结果可知,我国用户画像领域研究的演变过程可以划分为3个阶段。初期萌芽阶段(2011—2016年),该阶段随着“云计算”技术的实现,用户画像初步进入研究视野。快速发展阶段(2016—2019年),随着以大数据、云计算、人工智能为代表的新型数字技术广泛应用,用户画像技术在我国快速发展。该阶段,“用户标签”“机器学习”“数据”“智能化”等多个关键词相继突现,表明用户画像研究爆发,其研究深度和广度进一步拓展。多元拓展阶段(2019年至今),“用户体验”“服务模式”“科技期刊”成为用户画像研究的焦点。可以看出,大数据时代下的用户画像研究延续了互联网时代下“以用户为中心”的思维,借助大数据的技术手段和分析工具,更深入地了解用户,进而形成基于用户大数据的精准认知,并在此基础上为用户提供精准化、定制化的高质量服务。此外,“科技期刊”表征用户画像在图书情报与数字图书馆界的广泛应用。国内图书馆领域对用户画像的研究起步较晚,近3年才逐渐成为研究热点,研究成果也相对较少,主要集中在图书馆用户画像的模型构建和实践应用[8]。
4 结语
本文借助CiteSpace可视化软件及中国知网自带可视化工具,绘制发文趋势图、关键词聚类图谱、关键词时间线和突现图谱,对2011—2022年间用户画像领域相关期刊文献进行知识图谱展示,分析用户画像研究的总体发文趋势、研究热点及演变趋势。分析发现,我国用户画像研究虽然起步较晚,但发展迅速,研究内容集中在关键技术和实际应用,对基础理论的分析较少;目前用户画像技术已广泛应用于精准营销、个性化推荐、知识服务等;未来仍是多学科的研究热点。