图书情报硕士研究生群体的用户画像研究
2022-04-20王雯霞中国医科大学沈阳110122
●王雯霞 (中国医科大学 沈阳 110122)
研究生教育是培养高层次人才的有效途径。我国图书情报研究生教育历史较短,1978年全面恢复研究生培养制度后,武汉大学和南京大学图书馆学系开始招收首批硕士研究生[1]。面对信息时代出现的各种挑战,图情领域的研究生教育发展方向更加多元化、专业化。国务院学位委员会于2010年通过了图书情报硕士专业学位(MLIS)方案[2],标志着图书情报硕士研究生教育进入一个新阶段。笔者尝试在总结国内图书情报领域硕士研究生群体画像的基础上,为其科研能力的培养与发展提供解析和参考,有利于优化图书情报人才结构,提升核心竞争力。
1 图书情报研究生培养概述
关于图书情报领域研究生培养的研究成果很丰富,有学者通过对我国台湾地区[3]以及国外[4-7]图书馆学情报学硕士研究生教育和人才培养的详细阐述,具体说明了新时代背景下研究生人才培养理念的转变状况。还有学者通过对中美图书情报研究生培养方案的对比分析,提出对研究生培养应该基于职业需求,加强实践和合作共享优势资源[8-9]。柯平等认为图书情报学研究生教育是整个图情教育体系的一个重要组成部分[10]。同时,对MLIS的研究近年来也受到学界的广泛关注[11-13],这些研究成果一致认为通过优化教学方式、完善师资队伍等方式,能促进图书情报硕士专业学位研究生的人才培养。
硕士研究生是充满活力的科研生力军,在导师的科研课题中承担着重要角色,在科研活动中可以得到培养,增长才干。目前有学者认为图书情报硕士教育呈现出学术型和专业硕士并行的情况[14],相比侧重理论研究的学术硕士,MLIS偏向应用,但在培养方式上都是理论学习、实践实习、学位论文相结合[15]。在学位论文方面,两者对科研能力的需求是重合的,但侧重点不一致,学术硕士重点面向学术研究,对科研能力的需求高于专业硕士。学位论文是硕士研究生科研成果的重要产出形式,能展现图情领域研究生教育的发展方向。针对学位论文的研究,有学者[16-17]采用关键词和共词分析的方法,对某一学科硕士论文进行分析,反映图情领域的研究现状和硕士选题特点。还有学者[18-20]对学位论文的研究是基于文献计量的角度,指出图书情报学硕士论文的研究主题日益多样化,但稍落后于期刊论文。从现有研究结果来看,学者的关注点更多的是围绕硕士学位论文,鲜有研究从整个攻读硕士学位期间的科研成果角度展开,综合分析硕士研究生作为学术研究后备军的科研发展潜力。
2 搭建用户画像标签数据集
虚拟用户画像的基础是真实数据,姓名、毕业院校、发表文献题名、发表文献被引量等差异化标签可以区分不同用户。画像的标签体系决定不同群体的细分程度,描述了不同硕士研究生群体的学术科研需求,因此搭建用户画像标签数据集是首要目标。本文选择中国知网“图书情报与数字图书馆”专辑内的相关文献,学位授予年度选择2000—2018年,数据采集时间为2020年6月13日,共获取7 045个样本对象。以样本对象的具体姓名和所在高校为检索点,利用专业检索式获取每位硕士研究生的发文情况。为避免重复和兼顾查准率、查全率,姓名字段选择精确匹配,单位字段选择模糊匹配,检索式设置为“AU=作者 and AF%学位授予单位”。采用Python作为爬虫抓取语言,以知网公开的文献网址为种子页,共采集到7 045位作者发表的49 589篇文献,数据采集时间为2020年10月。
根据样本采集的源数据结构和研究目的,本文从用户和行为两个维度构建表格:用户信息表存放图情领域硕士研究生的基础数据,包含字段为姓名、毕业院校、学位授予时间、指导教师;文献信息表描述该作者攻读硕士学位期间发表文献的相关信息,包含字段为作者、作者单位名称、文献题名、文献来源、发表时间、被引量。
文献信息表中的数据是冗余繁杂的原始资料,必须经过预处理才能变成有效信息。数据预处理分两步进行。第一步是依据毕业院校的硕士研究生学制筛选特定时期内作者所发表文献的相关信息。由于图情领域部分期刊的出版周期为双月刊、季刊等,文献收录见刊的时间较长,因此本文选取的特定时期是从作者入学到毕业后七个月以内。第二步是排除同单位中同名作者的情况,判断依据首先是作者所发文献中的简介信息,其次是论文合著者。经过数据预处理后,仅撷取7 045位作者在攻读硕士学位期间的16 352篇文献。
3 硕士研究生群体用户画像构建与实现
群体用户画像构建与实现分三步展开:首先需要借助RFM模型对用户行为特征进行筛选,提取可聚类变量近度R、频度F、值度M;其次是在第一步的基础上对硕士研究生群体进行聚类划分;最后运用词云分析可视化每类群体的论文显著关键词围绕倾向,识别核心学术用户,提供差异化的科研策略。
3.1 特征变量选取
目前,多数学者认为用户画像的概念最早由Cooper A在1995年提出[21],最初的目的是加强软件工程师之间的沟通。随着精准信息服务需求的增加,用户画像逐步扩张到社交网络[22]、健康医疗[23]、图书馆[24]等领域。何娟通过构建读者的个人画像和群体画像推荐图书,并结合问卷调查验证此方法的有效性[25]。Kumar H等使用奇异值分解(SVD)为每个用户建立一个聚类用户兴趣档案(CUIP)[26]。Riccardo R等用微观模拟工具模拟机场用户的行动轨迹,构建决策支持系统为机场用户管理提供建议[27]。用户画像方法作为实现精准服务的有效工具之一,也可以运用RFM模型构建用户画像。
RFM模型是由Hughes A M[28]提出的,该模型简单易用,根据具体应用领域的差异,学者对传统RFM模型中的指标含义进行修正。Miglautsch J R认为RFM模型的三个变量应该根据客户差异赋予不同权重[29]。Liu D R等混合了基于加权RFM方法和基于偏好的协作过滤方法,改进硬件零售市场的有效个性化推荐[30]。Yeh I C等加入首次购买时间和客户流失概率参数来扩展RFM模型[31]。Sarvari P A等人采用加权RFM(WRFM)和未加权RFM指标组成不同类型集群[32]。赵洪波为分析面向图书馆精准服务的读者行为数据,采用读者最近相关活动数据(R) 、相关活动频率数据(F) 、相关活动时间停留数据(M)三个指标为依据[33]。
群体画像特征变量选取的是用户的行为属性,数据主要集中在文献信息表中,包括6个字段,分别为作者、作者单位名称、文献题名、文献来源、发表时间、被引量。借鉴上述的RFM模型指标含义,以进一步细分和识别硕士研究生为目标导向,根据发文行为的差异性,对RFM模型的指标含义进行调整。调整后的近度R表示在攻读硕士学位期间,每个人最近一次文献的发表时间与其毕业时间的间隔,以月为时间单位。频度F表示在特定时间范围内,每个人发表的文献总量。被引量是衡量文献学术价值的重要指标,值度M表示被引量的平均值。
3.2 用户群体划分
(1)变量聚类。聚类分析可以通过指标的变量聚类,对不同指标的分类情况进行总体分析,以实现用户分群的目标,但如何确定分类距离是聚类分析的关键。聚类算法中的距离测度要求变量之间具有一定的独立性,因此在聚类之前,需要检验变量的分布状态与独立性。表1是对三个特征变量的基本统计量描述,从表中可以看出值度M具有较大的标准差,有的作者文献被引均值为0,最大被引均值为88。根据表2中K-S检验的结果,显著性sig均小于0.05,因此三个特征变量均不呈正态分布。
表1 描述统计量
如果聚类分析所选变量之间的相关性较强,会在度量个体“亲疏”距离时进行重复计算,使同类变量占据较高权重,导致最终的聚类结果出现偏差,因此探索三个特征变量间的相关性关系是必要的。从表1中可以看出近度R和频度F的极小值频率均为3 048,百分比为43.3%,说明在7 045个样本中,有3 048位作者只发表过1篇文章,考虑到此部分样本占比近半且数据规律统一,可自成一类,需要对剩余的3 997个样本对象进一步展开探讨。表3是针对三个变量的相关系数检验表,表中显示三个特征变量具有一定的独立性,发文总量与被引均值呈微弱正相关,相关系数为0.237,发文总量较高,被引均值会略有提高;发文总量与时间间隔成微弱负相关,相关系数为-0.276,间隔越短的作者说明对学术的热情较高,发文总量相应会高一些。
表3 Spearman的rho相关系数检验
(2)聚类分析结果。手肘法是一种利用SSE(Sum of the Squared Errors,误差平方和)和K值的关系图确认最优K值的方式,其主要特点是随着K值的不断增大,样本划分的类别就越精细,SSE随着聚类精确度的提高变得越小,呈现出下降趋势[34]。按照手肘法的特点,选取K值范围为2~10,绘制出K值与SSE的关系图,如图1所示。从图中可知,随着K值的增加,SSE不断降低,当K>4时,下降幅度明显降低,因此选取聚类数量的值为4。
图1 K值与SSE的关系图
使用手肘法根据三个特征变量将群体划分为四类,再结合K-means聚类方法,7 045个样本对象的聚类结果如表4所示。其中,第一类群体占比最高,数据个数为3 048;其次为第二类群体和第三类群体,两者频度F和值度M的聚类中心值很接近,但近度R有明显差异;第四类群体共有367名,占比最小。
表4 聚类结果
3.3 群体画像构建与展示
7 045个样本对象包含的发表文献共16 352篇,根据四类群体的聚类结果进行划分,群体一包含文献3 048篇,群体二包含文献9 496篇,群体三包含2 332篇,群体四包含1 476篇。关键词能有效揭示文献主题,是论文的必备要素,本文将各群体所包含文献的关键词单独抽取出来,按照关键词词频进行排序,依据词频表通过Python的中文分词工具包制作出四类群体的词云图,如图2~图5所示。
图2 群体一词云图
图3 群体二词云图
图4 群体三词云图
图5 群体四词云图
群体一的显著关键词是服务、图书馆,具体涵盖个性化信息服务、公共文化服务、公共图书馆。公共图书馆面向全社会,可以实现全民共享文化服务,个性化信息服务也是构建公共文化服务体系的基础,三者的关联可看出群体一的显著关键词的围绕倾向是面向公众的图书馆服务研究。
群体二的显著关键词是分析,包含比较分析、文献计量分析、可视化分析、因子分析、内容分析。各种分析方法的使用基础是丰富严谨的数据,综合运用这些方法可揭示研究现状和热点,为研究人员把握领域前沿提供有力的参考依据。
群体三的最显著关键词是信息,具体涵盖信息需求和咨询、信息组织、数字资源保存、信息资源管理等一系列信息行为。次显著词是被引次数、引文分析、MOOC、博客、微博,前两者含义相近,后三者是在人工智能信息技术发展下兴起的新事物。
群体四的最显著关键词是评价,具体包括网站评价、期刊评价等各种评价指标和体系的构建,次显著关键词比较分散,包含创客空间、共现分析、科学计量学、SERVQUAL(服务质量)、手机图书馆、特色数据库、微信等。
4 用户画像描述及特征讨论
本文聚焦于图书情报硕士研究生群体的三个特征:在攻读硕士学位期间的发文总量、最近一次文献的发表时间与其毕业时间的间隔、文献被引量的平均值,结合K-means算法将群体聚为四类。
4.1 低价值群体
群体一的特征是频度F为1、近度R为0,说明在攻读硕士学位期间,群体一的硕士研究生只发表了1篇文献,即硕士毕业论文。硕士毕业论文是获得硕士学位的必要条件之一,也是衡量研究生科研水平和创新能力的重要依据,群体一只是完成了必不可少的毕业论文,处于硕士研究生群体的科研边缘位置,可以归属为低价值群体。低价值群体的用户基数在群体中分布最广,对科研论文还处于起步阶段,论文显著关键词方向偏向基础理论,该群体在某种程度上是学术成果的宣传大军。针对这部分群体首先需要进行更加深入的信息素养教育,潜移默化地提升其信息处理能力;其次可以从研究领域内的综述、高被引论文入手,让群体用户更加了解研究领域的热点问题和发展趋势,明晰不同用户的科研兴趣点。
4.2 重要挽留群体
群体三的特征是频度F为3、近度R为14,说明在攻读硕士学位期间,除了必要的硕士毕业论文,群体三的硕士研究生平均每人发表2篇文献,发表时间距离毕业时间14个月,大约是在研二阶段。根据词云图显示,群体三发表文献的最显著关键词涵盖了各种信息行为,揭示出该群体已经具备信息检索和利用等科研技能,结合数值为14的近度,可以归属为重要挽留群体。重要挽留群体具备承担课题辅助工作或接受科学研究全面训练的能力,发文总量多,但最近一次发文时间间隔较长,是容易发展为科研潜力军的类型。重要挽留群体可被视为潜在的科研输出型用户,可以制定相应措施对这部分群体用户进行引导,提高该群体的科研积极性和活跃度,缩短科研发文的时间间隔。
4.3 重要发展群体
群体二的特征是频度F为3、近度R为3,说明在攻读硕士学位期间,群体二的硕士研究生平均每人发表3篇文献,且发文时间间隔较短,基本与硕士毕业论文同步完成,结合文献显著关键词倾向,可以归属为重要发展群体。重要发展群体能兼顾发文总量和发文时间间隔,表明该群体可以综合运用知识发现问题、分析问题、解决问题,在某一研究方向有深层次的挖掘,在相应的研究方向中具有较高的科研基础,可以极大地提升发文的效率。针对重要发展群体,可以判定此类用户在发文需求方面较为突出,从发文行为模式来看,这类群体对文献内容和分析方法有深入的思考,具有相对完善的理论应用系统性,相比于重要挽留群体,前者在快速产出科研成果方面有明显优势。满足重要发展群体的科研需求是首要影响因素,其次是聚合科研方向相近的同伴,给群体用户之间进一步探讨的空间。
4.4 高价值群体
群体四的特征是频度F为4、近度R为5、值度M为22.21,说明在攻读硕士学位期间,群体四的硕士研究生平均每人发表4篇文献,发文时间间隔大约为5个月,文献被引量的平均值很高,大约为其他三类群体的5~7倍,可以归属为高价值群体。高价值群体是硕士开展科研的核心用户,从文献显著关键词倾向可以看出,此类用户的研究方向比较新颖热门,发文活跃性也最高。高价值群体用户数量较少,发文质量较高,首先可以为该群体推荐研究前沿的高质量文献,便于用户及时掌握科研发展动向。其次是开展差异化的专项指导,引导并鼓励用户积极参与科研或者申请项目课题,进一步促使该群体在不同科研成果类型中多开花。
5 结语
硕士作为科研后备军,具备较大的科研发展潜力和创新精神。本文基于用户画像相关理论方法,选择2000—2018年图书情报硕士在整个攻读硕士学位期间的发文情况作为研究对象,根据硕士的发文偏好进行群体画像描述,发现四类不同的研究生群体。在7 045个样本对象中,43%的硕士只完成了必要的硕士毕业论文,57%的硕士发文数量在3篇以上,表明图书情报领域硕士研究生不仅仅满足于获取学位,而且在科研方面有较强的需求。从发文质量角度衡量,只有5%的硕士研究生的文献平均被引量比较突出,是核心学术用户,是图情领域可持续发展的基础力量和核心竞争力。
梳理整个研究,仍然存在不足之处,首先受到中国知网学科分类的局限,本文仅以中国知网“图书情报与数字图书馆”领域为样本对象,实际上不同数据库中硕士研究生的收录情况可能是有少量不同的。其次是抓取时机问题,笔者选取的硕士学位授予年度是2000—2018年,如能结合不同数据库中更多时间段内的硕士发文情况,将能更加清晰地了解硕士研究生的发文行为特征,从而提供精准化、个性化的科研发展策略。