图书馆用户画像研究现状及趋势
2021-07-09王丽艳郭春侠
王丽艳,郭春侠
(安徽大学管理学院,安徽 合肥 232601)
1 引 言
近年来,大数据、云计算以及人工智能的快速发展逐渐催生出用户画像。用户画像是一种以大量数据为基础,从海量用户使用痕迹中细分用户群,精准挖掘用户需求的工具。基于图书馆目前所提供的资源与服务跟用户真实需求之间存有明显差距,图书馆需回归读者本身来重新审视其复杂多变的阅读需求,为其提供专业化与定制化精准服务。作为用户描述工具的用户画像一经出现,便引起图书馆界众多人士的关注。国内图书馆用户画像发展较快,近几年已经积累大量研究文献,也产生许多新的研究领域。因此,非常有必要对2014年以来的国内图书馆用户画像文献进行系统梳理,采用定量和定性方法融合研究用户画像,深入探讨其研究现状以及未来发展趋势。
2 用户画像概述
2.1 什么是用户画像
用户画像最早于1999年在国外设计领域兴起,其常用英文是Personas或User Profiles,且Persons是Cooper,A引入的一种描述User Profiles的方法。在国外,Personas更加偏重于用户理论研究,与种族人类学(人种学)密切相关,是具有名称、面孔、兴趣和偏好的原型用户的描述性模型;而User Profiles是人们利用机器学习和文本挖掘技术等从数量惊人的可用数据中归纳出用户兴趣的结构化模型。2011年,Miaskiewicz等采用德尔菲方法论筛选出用户画像引入到设计领域所带来的5个最重要的优点,即聚焦受众、产品需求优先级、受众优先级、质疑有关用户的错误假设、防止自我参照设计。
综上所述,大数据时代下,图书馆用户画像即用户信息标签化,是以图书馆服务系统及其相关平台一系列真实数据为基础,借助数据预处理、机器学习、数据挖掘、可视化等技术自动提取出个体或群体用户标签,从而建立起联系用户诉求与设计方向的目标用户模型。
2.2 图书馆用户画像建模
图书馆应用用户画像需要特定的流程,可从数据采集层、数据挖掘层以及数据应用层三个层面构建完整的用户画像模型(见图1)。
图1 图书馆用户画像建模
首先,明确模型构建目的。只有明确模型要解决什么样的实际问题,才能有的放矢地采集有效数据。
其次,数据采集层围绕模型构建目的进行相关数据的采集以及清洗整理工作。用户画像数据由结构化数据(学历、专业等)、半结构化数据(浏览、下载等)以及非结构化数据(评论内容、反馈意见等)构成。其中,半结构化数据与非结构数据较为复杂,可采用数据预处理方法将其转化为结构化数据后再进行数据挖掘与数据分析。这里展示了构建用户画像所需的6个基本维度的用户数据,即用户基本数据、用户行为数据、用户社交数据、用户科研数据、用户情境数据与用户信用数据。用户数据之间有较强的关联性与内在机理且需动态更新。若用户画像应用到图书馆某具体领域,需根据领域特色补充相关数据。
再次,在数据挖掘层将采集到的用户数据提炼出群体用户多级标签。标签通常是人为规定的高度精练的特征标识,如学历、院系、信用等级等。本文将学历、天气状况、信用等级定为一级标签,而用户基本信息、用户情境信息以及用户信用信息则定为二级标签,以此类推,逐级归纳聚类,形成单个用户的多级标签,所有用户标签利用数据挖掘技术进行关联分析、聚类分析、分类分析,按照特定的划分标准将单个用户多级标签聚类形成群体用户多级标签,由此形成用户画像分级分类体系。
最后,在数据应用层利用可视化技术呈现展示用户画像模型,使用户画像适用于不同的应用领域。
3 图书馆用户画像研究现状
截至2020年7月,在中国知网数据库以主题为“图书馆+用户画像”或者“图书馆+读者画像”或者“图书馆+人物画像”进行精确检索,最终得出119篇有效期刊论文和7篇硕士和博士学位论文,共计126篇论文。本文采用文献调研方法对这126篇论文进行研究分析,由于文章篇幅限制,本文仅选择有代表性的进行综述。
3.1 图书馆用户画像研究趋势
从图2能够看出,图书馆界在2014年开始研究用户画像,2015—2017年学术研究较少。不过,从2018年开始,图书馆界有关用户画像的学术文献迅速增加。硕士和博士学位论文从2018年开始研究图书馆用户画像,且呈递增趋势,预计在未来一段时间内,研究主题为图书馆用户画像的硕博士学位论文将会持续增加。据本次调研,图书馆用户画像的科研基金项目最早是2017年福建省中青年教师教育科研项目“高校移动图书馆用户画像构建研究”(项目编号:JZ170349),随后,科研基金项目不断增加,2018年出现了教育部人文社会科学研究项目与国家社会科学基金项目,图书馆用户画像研究呈现出欣欣向荣的景象。
图2 图书馆用户画像论文年发文量(单位:篇)
3.2 图书馆用户画像研究领域
用户是用户画像的主要研究对象,而用户类型以及用户需求的多样性决定了文章在研究某个具体领域时,用户群体的研究范围以及研究侧重点是不一样的,即用户画像具有较强的领域性。鉴于当前学术界对用户画像的研究已有一定的研究成果,本文在梳理图书馆领域用户画像文献的基础上,综合图书馆实践业务工作,对这些文献主题进行深入分析并汇总整理,从中筛选出图书馆应用用户画像的4个细分领域,分别是资源采购、资源推荐、知识咨询服务以及图书馆设计。
3.2.1 用户画像用于资源采购。基于用户画像的采购模式与以往不同,它是根据用户主观性的借阅、续借、浏览、下载等使用痕迹,从海量客观数据出发,推测用户阅读需求的一种文献资源采购方式。张胜蓉提出大数据背景下图书馆与出版社应在用户特性、用户画像模式、用户画像标准等方面进行规范化统一,以形成基于用户画像的精准合作关系。朱会华等在建立用户画像数据库的基础上,形成三大智能荐购模式,即以数据挖掘为核心的用户荐购、以知识聚类为核心的学科荐购、以用户需求为核心的采访荐购模式。
3.2.2 用户画像用于资源推荐。这里的资源推荐指的是广义的资源推荐,包括资源推荐、资源推送、资源推广等。用户画像用于资源推荐是学者重点关注甚至是研究探讨最多的领域。推荐系统既要满足用户个性化检索的需求,又要主动为用户推荐符合其喜好的文献资源。为此,基于用户画像的资源推荐系统可以从满足用户的兴趣偏好和阅读保健治疗两方面阅读需求入手,分别刻画用户偏好画像和用户健康画像,通过度量用户画像与资源画像的相关性来实现个性化检索与精准推荐。
用户偏好画像。以用户偏好画像为核心的智慧推荐系统从满足用户兴趣爱好的角度出发,向用户推荐文献资源与讲座活动等基础服务。王顺箐借助用户画像把握用户对不同资源的个人喜好和动态需求,以实现文献资源的个性化推荐。刘海鸥等融合用户基本信息标签、内容偏好标签、互动标签、会话标签以及情境标签构建图书馆用户画像模型,力图实现知识服务情境化推荐。王庆等从用户基本信息、用户内容偏好数据、用户互动数据、用户会话数据等多个维度分析用户兴趣偏好,建立用户画像模型,从而对单用户以及群体用户进行资源推荐。
用户健康画像。以用户健康画像为核心的智慧推荐系统利用How Net词典或者“伯恩斯抑郁症清单(BDC)”结合用户网上言论与行为构建用户情绪词典,刻画用户画像。在“互联网+”时代,图书馆联合微信、微博等新媒体记录用户负面言行,及时发现用户负面情绪,为用户建立健康档案并实时为用户推送相关文献,如心理学、哲学、历史、文学等不同类别的书籍,达到提前诊断,提早治疗的目的。目前,在用户画像的研究文献中,大部分资源推荐是基于用户兴趣爱好的,而以满足用户保健治疗为目的的论文数量则较为稀少,有进一步研究的空间。
3.2.3 用户画像用于知识咨询服务。人工智能时代下的基于用户画像的数字咨询服务是借助大数据技术抓取发现用户显性与隐性问题并主动为其推送相匹配的解答。
参考咨询。邢海鑫等以用户兴趣信息和用户行为信息为切入点,构建基于用户画像的数字参考咨询智能化推荐模式,从而实现用户方面信息与图书馆方面信息的主动匹配。朱娜娜等融合人物画像建立人机对话模型,增强数字参考咨询服务的个性化与趣味性。
学科服务。薛欢雪从学科服务角度创建高校图书馆用户画像。马管等探讨学科用户画像建模流程并拓展其应用场景,如学科信息素养教育、馆藏资源建设及关联推荐、嵌入式科研支撑服务等。潘宇光指出高校智慧图书馆学科服务使用读者画像的优势并进行建模分析。
文献传递。蒋君等以中国医学科学院图书馆为例,构建原文传递用户画像。
3.2.4 用户画像用于图书馆设计。图书馆空间设计。近年来,读者对图书馆空间布局、服务设施等空间服务的需求越来越多样化与个性化,了解用户对图书馆空间的使用偏好可以使图书馆空间布局的规划设计更加贴合用户需求,提高用户到馆率。不同用户的活动习惯不尽相同,杨燕认为用户画像是图书馆制订未来发展规划和空间建设的重要依据。尹相权以北京师范大学图书馆研究间系统日志为数据源,探索影响研究间使用的相关因素以及各因素间的深层次关联,为研究间的设施改善、精准服务提供数据支撑。刘海鸥等提出利用用户画像发现对创业有想法的用户,并在图书馆规划的空间内为其提供相匹配的创业工作坊、创客空间等创新创业知识服务。康存辉设计出基于用户画像的高校智慧图书馆服务空间再造策略。杨琬如等提出一种基于用户画像优化设计公共图书馆座位的构思。
数字图书馆界面设计。数字图书馆界面设计直接关系到用户参与的舒适度,是人机交互的关键,为此,图书馆越来越重视读者的个性化阅读体验,力图打破无差别的数字图书馆阅读界面设计,改善用户体验,提高用户忠诚度。用户需求被视为一组严格的设计规则,而不是与设计团队的服务对话。设计人员借助用户信息数据、用户行为数据、用户情境数据等感知用户对数字图书馆界面风格与功能设计的需求与期望,以确定整个数字图书馆界面的主配色、字体、功能设置、互动需求、页面排版与布局,等等。目前,国内有关用户画像与数字图书馆界面设计的研究成果较少,其中,有关数字图书馆界面设计的文献成果则更为稀少。严春来建议高校利用用户画像来设计完善移动数字图书馆App的功能模块。李大伟等利用用户画像对图书推荐App进行详细设计,使其具备美观性与易用性。
3.3 图书馆用户画像研究方法
研究方法是了解和认识学术研究,形成学术成果的一种手段和工具。梳理用户画像研究方法,对于摸清其研究脉络,提高其研究质量具有重要价值。笔者逐一审读126篇论文,在判定研究方法时,以文中所提到的研究方法为准,若文章未曾提到,则在贴合文章内容的基础上,人工标注其实际采用的研究方法。最后,文章选取理性思辨法、模型展示法、调查法、实验法、案例分析法等常用研究方法,对其使用频次进行统计(见图3),并探索分析其在图书馆用户画像领域的适用情况以及存在的问题。
图3 研究方法使用频次统计(单位:次)
3.3.1 研究方法使用频次。从2014年1月至2020年7月底,与图书馆用户画像有关的论文共有126篇,其中,模型展示法使用72次,调查法使用27次,实验法使用8次,案例分析法使用19次。由于基本每篇论文都会使用理性思辨法,因此未曾统计使用频次。模型展示法、调查法、实验法以及案例分析法在2014—2016年均没有使用记录。2017年,论文开始采用模型展示法、调查法、实验法以及案例分析法。自2017年以来,模型展示法、调查法、案例分析法的使用频次基本呈上升趋势。研究方法的使用情况在一定程度上代表了这个主题的完善程度,这表明用户画像在图书馆领域的应用日臻成熟完善。
3.3.2 研究方法适用情况及存在的问题。
(1)理论研究方法
理论研究先于实证研究,是实证研究的基石。只有把理论基础夯实,实证研究方能走得更稳,走得更远。目前,用户画像理论研究略占上风,但远未达到饱和,尚处于探索阶段。常用的理论研究方法为理性思辨法和模型展示法。
理性思辨法。理性思辨法是使用最为广泛的一种方法,运用思辨法研究图书馆用户画像主要集中于以下三个方面:一是“什么是用户画像”——用户画像概念内涵、英文表达、构成要素以及特性等基本问题的梳理探讨;二是“为什么应用用户画像”——图书馆应用用户画像的可行性与必要性、应用价值、应用优势以及应用领域的研究分析;三是“如何应用用户画像”——用户画像构建流程、算法技术、应用启示、应用困境以及应用策略等的研究。
模型展示法。模型展示法是构建模型、平台、框架、本体等,主要展示基于用户画像的多层次、立体化用户模型,常见的表达方式有模式、模型、建模、框架、流程、体系、方案、架构等。用户画像模型通常分为数据采集层、数据挖掘层以及数据应用层。在所调研的文献中,模型展示法使用率最高且是文献理论部分的核心,究其原因是用户画像作为一种目标用户模型与模型展示法契合度较高,运用模型展示法能为资源精准化推荐、空间环境的改进以及服务系统的完善提供一种清晰完整的新思路与新框架。例如,刘海鸥等在《面向情境化推荐服务的图书馆用户画像研究》一文中,将图书馆用户画像框架结构分为数据资源层、数据挖掘层以及应用服务层三层,并在文章的后半部分结合实例来验证用户画像理论框架。
(2)实证研究方法
用户画像是一种与图书馆工作联系紧密的理论模型,其实践应用性不容忽视。采用实证研究方法验证理论模型无疑是用户画像由理论转为实践的关键环节,是最具说服力的科学严谨的验证策略。通常是用户画像理论模型先行提出,可行性验证(实例验证与实验验证)随后跟上。实证研究方法的三大核心方法为调查法、实验法与案例分析法。
调查法。调查法是搜集数据的有效方式,常用的有问卷调查法、访谈调查法、网络调查法以及实地调查法。问卷调查法既能在实验前搜集用户数据,又能在实验后通过获取用户满意度来对用户画像模型进行后期评估。借助网络或者现场发放问卷的方式搜集用户数据,数据保密性好,但样本量较小、覆盖面不广,容易导致用户画像的群体类型有遗漏的风险。访谈调查法使用类型丰富,包括座谈会、一对一访谈、专家访谈法等形式,但使用频率较低,是一种辅助研究方法。问卷调查法与访谈调查法能直接获取用户的主观感受,但由于采集成本较高,使用率不高。网络调查法是用户画像数据搜集的最主要方法。追本溯源,用户画像依托于大数据技术产生、发展,对数据要求较高。用户数据维度越全,质量越高,形成的画像就越精准,而网络调查法采集数据效率高、成本低且更具客观性,因此,其也成为用户画像数据搜集的最普通方式。在构建用户画像模型时,利用Python,ACHE和八爪鱼等数据爬虫工具从图书馆及其相关平台抓取访问日志、注册信息等用户数据,有助于提高文本与数据挖掘的准确性与有效性,提高用户画像运用的成功率。实地调查法是深入实地,在与用户的直接接触中考察用户以获得原始资料的研究方法。实地调查法在文献研究中使用频次较少,适用于图书馆实地调查,例如,对图书馆周边环境、家具类型、采光条件、相对位置以及电源插座等的调研。调查法还常与案例分析法或实验法相结合,用于搜集研究数据。例如,《浅议数字图书馆知识发现系统中的用户画像——以天津图书馆为例》综合采用调查法与案例分析法研究用户画像;《基于VSM的移动图书馆用户画像及场景推荐》综合运用问卷调查方法、访问日志挖掘方法、出声思考法以及专家访谈法搜集数据,然后利用实验法验证用户画像理论模型的可行性。
实验法。实验法常与调查法相结合,主要用于阅读推荐领域。运用实验法对文章所提出的模型进行可行性验证或验证其所提出的用户画像构建方法与传统方法相比具备更高的准确性与用户满意度。实验的评价指标具体包括用户满意度、查准率以及召回率等。用户满意度直接反映用户意愿,主观性较强,而查准率、召回率等评价指标依靠客观数据计算,人为因素干扰较小,增强了研究结论的可靠性与可信性,但这种算法是否具备普适性还是一个未知数。总之,实验法在用户画像实证研究中的作用与价值不容忽视,其未来的应用将更加普遍。
案例分析法。部分文献仅从题目描述就能看出其采用案例分析法,如“以×××为例”,而有些文献则难以看出,需通读全文后,人工判别其采用的研究方法。调研发现,部分文献在其后半部分采用案例分析法来验证假设模型。例如,《数字图书馆用户画像建模与应用实践》一文以国家农业图书馆为例实践验证用户画像理论模型。文献所选用的案例多数是作者所在的高校图书馆,这可能与高校图书馆保密意识较强,数据不易获取有关。选用的案例一般可分为两种,一种是传统图书馆,另一种是正在应用用户画像的图书馆。传统图书馆研究如何借助用户画像实现更优质发展,而正在应用用户画像的图书馆如中国农业科学院国家农业图书馆、中国国家图书馆则讲述其当前应用用户画像的进展、建设成果以及未来系统平台服务优化方向。
4 图书馆用户画像发展趋势
4.1 研究对象场景化
图书馆用户画像不再是大范围地粗略关注用户,而是进一步聚焦从用户身上所折射出来的各类标签以及这些标签所抽象呈现的各类栩栩如生的图书馆场景,如资源采购、资源推荐、知识咨询服务、图书馆设计等大场景以及这些大场景下的各类小场景。图书馆用户画像未来的用户将“生活”于具有代表性的特定场景中,因此,用户画像不仅适用于场景推荐,还适用于场景规划与场景重构。
4.2 研究走向纵深化
2014年,李业根首次将用户画像引入图书馆界。自此之后,图书馆界有关用户画像的各级各类科研基金项目不断涌现,研究项目持续推进,众多学者纷纷将目光投向用户画像研究,研究热度不断升温,主题为用户画像的期刊论文与硕士和博士学位论文发文量呈逐年递增趋势,研究成果层出不穷,研究领域不断拓展,图书馆用户画像研究不断向纵深方向发展。
4.3 研究领域全面化
本文梳理了资源采购、资源推荐、知识咨询服务与图书馆设计4个较为成熟的研究领域,资源推荐领域文献研究最多,其次是图书馆设计领域。笔者通过上述检索获取了各研究领域的发文数量、研究主题与起始时间:资源采购有2篇,研究主题包含智能荐购、图书馆与出版社合作模式,第1篇文献发表年份为2016年;资源推荐有55篇,研究主题包括资源推荐、资源推广、资源推送,第一篇文献发表年份为2018年;知识咨询服务有6篇,研究主题包括问答服务、学科服务与文献传递,第一篇文献发表年份为2018年;图书馆设计有7篇,研究主题包括空间设计与界面设计,第一篇文献发表年份为2018年。由此可见,图书馆用户画像研究领域以及研究主题不断丰富深入。后续学者依然可以在这些较为成熟的研究领域,采用不同的方法从不同的主题或者视角继续展开研究,如决策参考服务、引文推荐服务、服务自动化等。
4.4 研究方法多元化
不同研究方法各有其特性、优点与不足,在选用研究方法时,一般综合采用多种研究方法,从多方面、多角度验证完善学术研究成果。在所调研的文献中,“理性思辨法+模型展示法”“模型展示法+调查法+案例分析法”“模型展示法+调查法+实验法”综合运用较多。一方面,理论研究应切实发挥其先导性与预见性作用,为实证研究提供科学指导,引领其未来发展方向;另一方面,实证研究应起到检验理论模型的作用,为理论研究提供最新数据与实例支撑,以消弭理论研究与实证研究之间的鸿沟。用户画像理论还与其他学科理论,如本体论、超级IP、概念格、场景五力等理论相融合,有助于开阔学术视野,为图书馆建设与发展注入新的生机与活力。
5 结 语
大数据、云计算以及人工智能等技术为图书馆用户画像带来了全新的机遇与挑战。本文采用文献调研法与内容分析法,对研究图书馆用户画像的期刊论文与硕士和博士学位论文进行分析,揭示图书馆用户画像4大研究领域,指出理论研究方法与实证研究方法的应用现状,从而归纳得出图书馆用户画像的研究趋势,希望能为后续的研究提供一定的借鉴与参考。但由于时间与文章篇幅限制,本研究只能从期刊级别与主题新颖等方面选择具有代表性的论文进行综述,分析对象的全面性有待进一步提升。