APP下载

多平台视角下用户知识交流主题挖掘与画像分析

2024-07-01严炜炜曹灿瑜

现代情报 2024年7期
关键词:用户画像

严炜炜 曹灿瑜

关键词: 知识交流; 多元平台; 主题模型; BERTopic; 用户画像

DOI:10.3969 / j.issn.1008-0821.2024.07.005

〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821 (2024) 07-0047-13

知识被认为是价值创造、生产力拉升和社会经济增长的重要驱动力[1] 。面向当前世界科技前沿,推动创新驱动发展成为时代主题。党的二十大报告明确了创新在我国现代化建设全局中的核心地位,科技创新是打造高质量发展新动能和新机制的关键[2] , 是新时期“实现高水平对外开放、推动高质量发展” 对国际科技合作提出的重点要求。在这一背景下, 知识交流作为科技创新合作的重要窗口,是促进科学技术和知识经济发展的加速器, 也是我国深度融入全球创新网络并引领科学领域前沿发展的关键路径[3] 。

当前, 包括大众社交媒体、问答知识社区、学术社交网络等在内的多元平台已成为网络环境下开展知识交流的重要情境, 其中, 不同知识水平的个体广泛参与主题多样的知识交流并促进着知识创新[4] 。依托网络平台更安全的社交环境和持续丰富的互动渠道, 以知识内容为主体的用户知识交流行为亦呈现出多元化、开放式的融合趋势[5] 。由此可见, 单一的平台研究已无法全面揭示用户知识交流行为与偏好, 亟需拓展多平台场景的知识交流内容差异与群体识别等领域的研究。

综上所述, 本文立足多平台视角, 对用户知识交流内容进行主题挖掘, 并融合多平台共性指标构建用户画像标签体系, 进行群体聚类并抽象出不同用户群体的典型特征, 最终通过对比分析揭示平台间知识交流主题和群体差异, 旨在实现用户知识交流行为的泛平台刻画, 有助于差异化网络平台精准经营和科学决策, 从而推动平台良性知识交流生态建设和平台间开放创新进程。

1 相关研究

1.1 知识交流行为研究现状

知识交流是指以知识共享和知识创新为导向,通过特定平台渠道的沟通互动, 将知识主体的隐性知识显性化的过程[6] 。作为当前时代人们知识生产、协作和传播的聚集地, 以知识内容为核心的网络平台也在向着多元类型演化, 成为知识交流主体实现知识需求、传播信息价值的有效载体。围绕知识交流行为, 学者们除了对交流过程中的知识贡献意愿[7] 、交流效率[8] 等方面进行了探索, 还重点关注了知识交流互动偏好[9] 。相关研究不仅利用问卷访谈、社会网络分析法及内容分析法等方法, 探讨了互动主客体、互动网络及互动主题等行为规律,揭示了知识主体主要通过知识传递或信息共享对知识客体进行内容输出[10] ; 亦从特定平台场景探究了内容交互模式, 发现学术社区用户内容交互涉及问题澄清、回答扩充、问题协商三类模式[11] 。还有部分研究利用LDA、BERT 等主题建模等手段,对知识交流主题进行数据抽取与识别, 如Ning C等[12]基于BERT 模型对知乎体育文本进行主题分析,发现女性在表达对体育信息等需求时更倾向于强调自身的性别属性以获取更有用的知识。

1.2 用户画像研究现状

用户画像是建立在一系列真实用户数据上的目标模型[13] , 由交互设计之父Alan Cooper 提出, 最初被常用于电商行业, 作为识别用户标签特征、追踪用户兴趣偏好的一种技术工具[14] 。因具有灵活便捷、精准度和重要性高等优势, 用户画像在社交媒体[15] 、健康社区[16] 、政府服务[17] 等多领域得到广泛应用, 指导用户需求识别、精准信息营销、平台个性化服务等工作, 其构建方式主要包括基于用户行为、基于用户偏好、基于主题、基于人格和用户情绪4 种主流方法[18] 。现有研究通常围绕某特定平台构建用户画像标签体系, 结合用户年龄、性别等人口统计学指标[19] , 浏览量、发布数、互动数等行为计数指标[20] 及社会网络出入度、影响力等计量指标[21-22] , 实现群体标签抽象与特征描述。亦有部分学者尝试引入多元数据以完善系统化用户画像, 如高靖超等[23] 结合4 个代表性在线医疗社区特征构建健康焦虑用户画像标签体系; 王东等[24]通过对多数据源的科研人员信息整合, 从实体抽取和科研属性标签抽取等维度构建科研人员画像。

1.3 研究评述

伴随知识生产与互动传播渠道拓展, 网络平台用户知识交流行为相关研究主要关注了用户互动行为偏好和互动主题, 但大多存在样本局限性或个体主观性等问题。同时, 用户画像技术虽较为丰富,应用于不同场景以揭示用户特征规律, 但现有研究往往仅针对单一平台样本或同类型平台, 对多元情景的融合样本研究较少, 尤其是从多平台乃至跨平台视角对用户画像的整体刻画较为有限, 缺乏对多元平台情境下的用户整体画像揭示, 未能深入理解用户知识交流行为全貌特征及偏好。因此, 本研究结合多平台的用户知识交流指标构建用户画像标签体系, 利用技术手段加工得到用户标签数据, 以在多平台情境下探究不同类型用户及不同类型平台的知识交流行为规律。

2 研究设计

虚拟技术发展为知识交流构筑了多元平台情境,诸如以新浪微博、Twitter(现更名为X)为代表的大众社交平台赋予不同话语主体信息传播的权利[25] ,为广泛稳定的知识交流行为提供场景; 以百度贴吧、豆瓣为代表的兴趣交流平台核心为共同兴趣, 通过问答讨论等形式, 聚集丰富的“圈层化” 用户知识生产内容[26] ; 以CSDN、经管之家为代表的垂直知识平台将用户知识内容下沉至垂直领域[27] , 实现更加优质标准的个性化知识服务。此三类平台分别代表了社交、圈层、专业的交流媒介, 共同构筑了在线知识交流的主要渠道, 且三类平台知识交流主体及内容特征差异明显, 故而本文以此为多平台样本构建研究框架, 如图1 所示。根据多平台的数据结构和指标差异选取可以应用于研究的数据, 并通过Python 爬虫采集用户知识交流行为数据, 进行数据预处理。在实验设计部分, 利用BERTopic模型对用户博文进行主题提取, 构建用户知识交流主题, 筛选得到有明确知识交流主题的用户, 并对该部分用户构建用户画像标签体系。在用户画像呈现和多平台对比分析部分, 采用K-means 算法生成画像, 最终分析多平台用户画像和知识交流主题的差异。

2.1 数据来源与预处理

ChatGPT 全称为聊天生成预训练转化器, 是OpenAI 于2022 年11 月发布的人工智慧聊天机器人程序[28] 。由于优异的文本处理能力和对话技术,该产品自推出后引发全球广泛关注和讨论。基于ChatGPT 相关话题的时间周期短、爆发性高、知识交流内容丰富等特点, 本文以该科技前沿性话题为实证研究对象, 结合平台特性差异和用户活跃情况,选取了新浪微博、百度贴吧和CSDN 分别作为大众社交平台、兴趣交流平台、垂直知识平台三类平台的代表进行样本数据的获取。利用Python 爬虫以ChatGPT 为检索关键词获取了2022 年12 月1 日—2023 年8 月31 日各平台下全体原创知识交流信息,包含博文信息(博文ID、用户ID、发布时间、互动数据)和用户信息(用户基本指标、平台行为指标等)等数据共计184 929条。考虑到数据可用性, 对已有样本进行数据清洗与预处理步骤如下:

1) 去除文本中的表情、符号、用户名、网址链接、平台特有字符串等无意义表达。

2) 筛选汉语文本长度在5~160 之间的帖子文本。

3) 剔除重复及无效数据。

4) 利用Python 的Jieba 库和中文停用词库对文本数据进行分词和去停用词处理, 并剔除超高频词汇。

经过以上步骤, 得到数据总体数量和预处理结果示例, 如表1 所示。

2.2 知识交流主题模型

本文利用BERTopic 模型来挖掘用户知识交流主题。BERTopic 是一种基于变换器的无监督主题聚类深度学习模型[29] , 能够解决传统主题模型中常见的短语依赖和语义模糊问题, 在句子向量表征与文档语义关系方面表现优秀[30] , 对大样本主题识别具有更强的灵活性和稳定性[31] , 适用于本文多平台博文样本量大、短文本多及文本内容复杂等数据特点。该模型的具体实现步骤如图2 所示。①文档嵌入。使用SBERT 语言模型对多平台输入文档进行向量化描述, 将文档表示为高维向量空间中的点; ②文档聚类。由于聚类模型难以处理高维杂糅数据, 因此在利用UMAP 算法对高维向量进行降维后, 采用基于密度的聚类技术HDBSCAN 创建语义相似的文档簇; ③主题表征。使用c-TF-IDF和MMR 算法对各文档簇提取主题词, 各主题词代表其融合了多平台文本语义的聚类关键特征。

2.3 用户画像标签抽取

通过对用户信息的高度特征凝练, 抽取得到的标签可用于构建用户画像模型, 现有研究多从自然属性、社会属性、行为属性、主题属性等维度抽取画像标签, 其中自然属性主要考察用户性别、地区和用户兴趣专业[20,32] ; 社会属性一般关注用户平台粉丝量、成就贡献和用户消费水平等[14,33] ; 行为属性不仅考虑行为总量和生产内容长度等用户行为特征[23,34] , 也量化评估用户影响力指标[22] ; 主题属性则重点聚焦于主题词及其子类目[35] 。结合多平台的场景搭建差异及知识交流指标定义, 通过对平台间用户行为指标的异同对比, 从中抽取相似要素, 构建多平台视角下用户画像标签体系如表2所示。

2.4 用户画像标签加工

2.4.1 社会属性标签加工

粉丝规模。该标签被广泛应用于识别网络平台意见领袖, 是评价用户社交价值的重要依据[37] ,由用户的其他用户关注数fans 表示。fans 值越大,代表用户的平台被关注数越多, 用户的平台知识交流和舆论引导的传播潜力越强。

个人成就。该标签指用户在平台完成一系列指定信息行为后获得的个人成就, 包括成就奖牌、成就勋章数, 由achievements 表示。achievements 连接了个体需求和平台功能, 使得用户能有效和其他个体建立关系、获得荣誉以及成长[38] 。

会员水平。该标签以用户是否为平台会员及其当前会员等级为衡量依据, 用ranks 表示。购买会员是网络平台的重要付费形式之一, 反映用户对平台的使用深度和付费意愿。在新浪微博体现为用户的VVIP 等级, 百度贴吧和CDSN 体现为用户的会员天数。

由于不同平台特征及其社会属性标签计量方式存在差异, 如以用户活跃度较高的新浪微博的fans均值显著大于百度贴吧和CDSN。为科学衡量用户在差异化平台情境下的社会属性表征, 分别对各平台的属性标签进行归一化处理, 如式(1)所示:

2.4.3 标签加工结果

为排除标签间相关性对最终聚类的影响, 考虑到各标签均不符合正态分布, 故采用Spearman 相关分析法对加工后的用户画像标签体系进行相关性检验, 结果如图3 所示。一般认为Spearman 相关系数绝对值在0~0.2 区间不相关, 0.2 ~0.4 区间弱相关, 0.4~0.8 区间中度相关, 0.8~1.0 区间显著相关。可知标签之间均未出现显著相关, 多数为不相关或弱相关, 标签呈现较强的独立性, 因此该体系可用于后文的聚类分析。

对构建的用户画像标签体系进行分类统计, 其数据分布情况如表3所示。

3 结果分析

3.1 知识交流主题识别

通过对搭建的BERTopic 模型的多次调参训练,确定当设置UMAP 句嵌入降维维度为29, HDB?SCAN 最小聚类规模为250 时, 可得到最具有明确含义的主题共57 个。该结果解释了83 437篇文档的主题分类表征, 另有57 559篇文档由于主题杂糅或离群被视为噪声值而剔除。根据基于簇的c-TFIDF方法提取各主题关键词, 经过人工审阅, 发现部分主题的关键词及文档内容呈现较高的相似性。根据知识交流主题识别及网络平台主题分类的相关研究, 以主题关键词及余弦相似度为研判依据, 结合3 名专家意见对相似主题进行人工筛选及归类合并, 最终得到46 个用户知识交流主题如表4 所示。结果显示, 针对科技前沿性话题的各平台中用户知识交流主题较为丰富, 可划分为应用场景、行业进展、未来探讨、相关产业、咨询求助、热门话题、使用感受及风险监督8 个方向。其中, 应用场景主题最为热门, 包括论文参考、代码编程、语言润色等多元实践场景, 体现了用户对科技前沿性技术应用价值的关注。此外, 除去对话题本身的探讨, 对诸如股票、元宇宙等相关产业及数据安全、数据监管等延伸话题的讨论也具有一定显示度, 如图4 所示。该类型主题位于整体主题讨论的偏中位置, 反映出延伸话题同样是科技前沿性话题的重点讨论对象, 拓展了一般知识交流的层次范围。

3.2 用户画像呈现

在剔除了噪声数据后, 对识别出明确主题的58 859名知识交流用户进行画像分析。采用K-means算法对用户画像标签体系进行群体聚类。K-means是一种基于数据之间相似性进行聚类的强大算法,其泛化能力强, 对高维大规模数据的处理效果优异,被广泛应用于群体分类和特征识别[39] 。该算法的基本思想是将数据集按照不同的类别划分成多个簇,通过不断迭代使得数据点和相应的簇中心的欧式距离最小。结合本文数据集规模大、特征标签复杂等特点, K-means 算法可以在高效收敛集合的同时提供较强的解释度。通过手肘法选取最佳聚类数K,如图5 所示, 可知当K 取值小于4 时和方差(SSE)下降明显, 往后再增加K 所得的聚合效果回报迅速变小, 因此确定最佳聚类值K=4。

根据最佳聚类值计算K-means 聚类结果, 对画像标签进行分类统计, 并结合不同群体的标签分布特点和分类内容, 将知识交流主体分为专业贡献型、综合共享型、社交求知型及话题潜力型4 种类型, 其占比和特征呈现结果如表5 所示。

专业贡献型用户。该群体中多为数码、写作及教育兴趣等专业领域的关键意见领袖, 在粉丝规模和个人成就等指标上表现最优, 且具有丰富粉丝基础和高平台价值。从知识交流行为属性来看, 该群体产出较高, 形式以长篇和中长篇博文为主, 且博文具有显著的知识交流影响力, 代表了平台高质量知识交流行为。该群体的知识交流主题以应用场景为主, 用户善于结合自身专业特点, 针对人工智能话题的应用价值创作知识博文, 如探讨ChatGPT如何提升聊天机器人的性能水平。可以看出, 该群体虽占比最少, 不足用户总量的10%, 却是不同平台和相关话题的高黏用户, 贡献了大量优质知识内容, 是多平台知识交流行为的重要组成。

综合共享型用户。该群体约占用户总量的1/5,综合了财经、科技、互联网等专业领域, 社会属性表现较为显著, 其中高会员水平用户占比最高, 体现出群体普遍具有高付费意愿及高平台经营价值。该群体的知识交流行为属性略弱于专业贡献型用户,但在知识交流总量、长度和影响力水平仍较高。从知识交流主题来看, 该群体对行业进展、风险监督的主题关注度高, 对国内同行业产品、数据安全监管等相关产业有较高讨论度。结合以上特征, 本文认为该群体在平台使用时更注重共享传播知识、跟进时事热点、实现自我价值等多维需求。社交求知型用户。该群体占比略高于综合共享性用户, 兴趣领域更倾向于娱乐化。从社区属性来看, 该群体的粉丝规模表现不突出, 且多成就和高等级用户占比较低。该群体低产出用户显著高于其他三类群体, 知识交流内容以短篇、弱影响力的帖子为主, 表现出较弱的知识交流贡献度和话题黏性, 能够满足他人知识需求或引起共鸣的高价值内容相对匮乏。知识交流主题以热门话题、资讯求助和使用感受为主, 其中问题、回答、求助等关键词出现频次高。相较于成为内容生产者, 该群体用户更倾向于通过平台实现感情抒发、寻友交友及彰显存在等社交意愿, 或利用平台的已有社交与知识价值来解答个体疑惑。

话题潜力型用户。该群体为用户总量最高的群体, 同时也拥有最弱的社区属性, 其中社交用户、知名用户和多成就用户的占比最低, 而普通用户、一般成就及非会员用户的占比最高, 用户普遍对平台使用黏性低。从知识交流行为来看, 该群体的知识交流总量和长度优于求知社交型用户, 体现在低产出用户和中长篇及长篇帖子占比较高, 但影响力相对较弱。类似于专业贡献型用户, 该群体的知识交流主题以应用场景为主, 往往针对教育、编程、感情等场景展开探讨。本文认为, 该群体具有一定强度的知识交流意愿, 但由于对平台的日常利用率不高, 而受限于社会属性难以形成大影响力的知识交流行为, 但总体来说属于相关话题优质产出的潜力用户。

3.3 多平台差异对比

为进一步探究平台间知识交流差异, 对多平台的知识交流主题占比分布统计如图6 所示。结果显示, 各平台用户的知识交流主题存在明显差异。新浪微博中应用场景的主题讨论占比最高(51.6%),而对其他主题的探讨频次相对平均, 相较于其他平台表现出更强的主题广泛型。百度贴吧的知识交流则更集中在咨询求助主题上, 如账号注册、登录节点、网站地址等针对话题本体使用的用户求助意愿在3 个平台中表现最强烈, 原因可能是兴趣平台的知识交流主题更倾向于聚集化, 对于某些典型咨询问题的响应速度较快、内容较优质, 因此用户乐于利用该平台寻求咨询解答。相对来说, CSDN 的知识交流多为行业进展、应用场景、咨询求救和相关产业主题, 而涉及其他主题的知识交流内容较少,体现出一定的平台垂直性。

图7 反映了多平台知识交流用户画像分布情况。作为开放式的大众社交平台, 新浪微博具有多元化的用户群体, 在4 个群体用户占比分布上最为平均,其中专业内容贡献者、综合领域共享者、社交话题用户以及普通网民等不同话语主题均广泛参与到科技前沿性话题的知识交流行为中, 并在知识传播交流中发挥作用。作为私域化的兴趣交流平台, 百度贴吧的大多数用户由社交求知型和话题潜力型组成,用户利用平台的功能属性和独特社群制度, 进行社交性的知识交流问答, 提升自身认知水平, 寻求群体身份认同。作为技术型的垂直知识平台, CSDN以综合共享型知识交流用户为主, 以发表原创博文的形式进行知识创作和共享。此外, 由于平台兼顾问答功能, 因此社交求知型和话题潜力型也是该平台的重要用户群体。结合各平台特性和用户构成,可以看出本文构建的多平台用户画像标签体系具有较强的解释性和普适性。

4结语

本文在以往网络平台及知识交流相关研究的基础上, 提出了一种基于多平台视角下的知识交流用户画像标签体系, 并以多平台数据为研究样本, 围绕科技前沿性话题ChatGPT 探讨用户知识交流主题内容、用户群体分类及多平台知识交流主题和画像差异。研究首先采用BERTopic 主题模型对博文数据进行文本聚类, 获得46 个知识交流主题和8大研究方向; 其次从自然属性、社会属性、知识交流行为属性和知识交流主题属性4 个维度对多平台用户知识交流特征进行标签分级与概念解释, 并利用K-means 算法进行用户聚类, 提取出4 类群体的典型特征; 最后从知识交流主题和用户画像两个维度对比分析平台间差异。研究有助于进一步丰富多平台用户信息行为相关研究, 有利于相关平台针对不同群体提出针对性服务对策。

具体而言, 本文实证研究结果发现, 多平台间知识交流主题和用户画像存在显著差异, 不同类型平台应采取针对性地优化策略和管理手段, 以提高平台经营能力。①针对大众社交平台参与知识交流的用户群体多元、交流活跃度高、知识交流主题广泛等特征, 平台可动态跟踪用户知识交流需求与行业前沿热点, 根据用户自然特征与使用行为等特征及时匹配推送兴趣知识内容, 以降低用户信息筛选成本, 从而提高使用黏性。同时, 完善博文反馈机制, 利用平台传播能力优势对专业贡献型及综合共享型用户的知识产出与传播方向进行引导, 正确把控信息舆论导向; ②针对兴趣交流平台以社交求知型和话题潜力型用户为主、知识交流主题集中于咨询求助等特征, 平台可设立专门答疑板块, 优化个性化问答服务, 引入趣味性、游戏化的交互功能,并完善奖励机制鼓励潜力用户参与互动, 以激发用户活性; ③针对垂直知识平台兼顾综合分享、话题潜力及社交求知型用户的画像特征与集中化的知识交流主题, 平台可根据用户诉求提供个性化知识推荐与付费服务, 并积极与行业专家、技术达人和高校科研机构等群体达成资源共享与深度合作, 有效提高知识交流内容质量。

本文的局限性主要为研究对象仅针对ChatGPT单一话题, 数据样本则选取的是大众社交平台、兴趣交流平台、垂直知识平台三类平台中的代表, 所获得的知识交流主题和画像结果可能存在一定的局限性, 在未来的研究中可以将研究对象拓展到其他平台的其他话题上, 验证用户画像在面向不同领域数据的泛化能力, 以构建更加全面、精准的多平台用户画像标签体系, 支撑多元平台知识交流生态的持续完善。

猜你喜欢

用户画像
基于数据分析高校学生自画像的初探
分析用户画像在企业精准营销中的应用方式
基于用户画像的数字原住民社会化媒体采纳意愿的阶段性分析
基于大数据技术的广电用户收视行为建模
基于大数据的电商活动页面设计策略研究
用户画像在内容推送中的研究与应用
贝叶斯网络在用户画像构建中的研究
把声音的魅力发挥到极致
移动用户画像构建研究
基于微博的大数据用户画像与精准营销