面向用户认知需求的图书馆用户画像研究
2021-03-12于兴尚王迎胜
于兴尚 王迎胜
(1.广州工商学院 广东佛山 528100;2.黑龙江大学信息资源管理研究中心 哈尔滨 150080)
1 引言
随着人工智能技术的应用以及用户认知需求的增长,探索用户、图书馆服务之间在认知层面的深入交互已成为必然趋势,图书馆服务推陈出新势在必行。在转型发展过程中,图书馆逐渐重视用户认知与价值信息的准确匹配,减少由于信息量过大而造成的用户信息认知模糊和检索信息的焦虑心理。认知需求源于20世纪50年代并被看作重要的人格特征[1],它要经过信息的捕获、定位、整合、分析等动态发展流程。目前图书情报领域关于用户认知需求研究主要结合理论探究、用户认知结构、检索系统体验、认知模型、影响关联、信息服务等方面展开论述。王忠义等结合激活扩散理论构建用户认知模型,依据数字图书馆用户外在信息行为进一步甄别用户内在的认知结构[2]。李金鑫等从认知心理学的视角探讨用户认知结构和图书馆服务的关系界定[3]。韩正彪等通过多阶段实验测试法,揭示新手用户与文献数据库交互过程中用户心智模型认知的演进维度[4]。闫瑶瑶等在文献调研的基础上依托稀缺理论,详细探索用户认知的动态变化[5]。郭伏等以数字英才网中的信息内容设置的4种文本形式和文本页面的9种不同检索位置来验证被试者在信息检索过程中对自身认知效果的影响[6]。从学术界现有的关于用户认知的研究来看,虽然考虑用户体验对用户认知评价的影响,集中将不同的认知视角、实践操作、案例分析、模型搭建等主题融入用户认知元素,却很少有学者对用户的具体网络浏览数据、兴趣偏好、检索方式、情感认知等进行集中探索,从而导致目前的用户认知需求研究不够细致,模糊性比较明显,弱化了用户行为数据的时效性对改善用户认知需求的效能和功用。为了加强用户认知需求的深度,满足图书馆馆藏资源与用户需求的实时对接,用户画像技术是有效的解决方法之一。
近年来,用户画像研究和应用逐渐向用户服务方面转移。梁荣贤通过数据采集、处理、模型构建与行为预测、用户画像的更新与完善、用户体验的改良与升级、用户隐私保护等步骤,重新审视用户画像应用于图书馆精准服务的设计策略[7]。何娟选取图书馆用户借阅题材并结合个人和群体用户画像的构建技巧,用于实现图书馆用户个性化图书推荐目的[8]。孙守强综合智慧图书馆的研究现状和服务特色,在用户画像的基础上制定服务于用户的个性化服务框架[9]。毕达天等为识别不同用户在不同场景的信息需求,将场景与情境两大维度融入用户信息需求期望、信息检索习惯、信息需求偏好三大要素之中进行互补适配[10]。刘漫构建多维度数据标签,将用户和图书两大维度相关内容作为数据来源,采用本体方法构建基于用户画像的阅读推广服务模式[11]。张莉曼等依据用户画像相关概念和七步、十步人物角色构建法则,紧接着从概念模型设计、群体划分、特征值提取3大流程确定直播支付平台中面向付费用户的画像流程图[12]。吴智勤等提出基于图论的社交网络分析法,以解决目前用户画像面临的数据稀疏和隐私保护问题[13]。经笔者研究发现,目前图书情报领域涉及用户画像研究主要集中于精准化推荐、个性化智慧服务、场景服务等方面,少量研究主题涵盖阅读推广、支付平台搭建、社交网络分析等层面,但是研究涉及用户认知维度方面的却较少。文章以用户画像技术为落脚点,打造分析用户认知需求的系统模型,一方面可通过最佳的方式改善用户认知需求质量并逐渐缩小用户在现实生活中检索信息的认知差距。另一方面可高度契合图书馆用户信息痕迹,在规划数据来源和数据质量的基础上构建用户可视化信息全貌,转向用户认知在信息检索中的活动和情感体验等,以精准的服务方式分析用户认知需求趋势。
2 用户画像对探索用户认知需求的能动作用
用户通过信息的交互和实践过程,不断扩充和了解各种知识层面,创建相关认知架构并逐渐形成自己的认知体系,以探求用户认知背后的隐藏思维,用户画像即用户内在认识世界的镜像表示。用户画像源于现实又高于现实,源于数据又高于数据,是对用户数据特征的显性描述,用户画像的产生要求人们从数据入手解读用户需求。一方面用户画像技术从用户相关信息属性出发,根据用户现有行为习惯,精准运算、分析、评估用户特征,将用户行为特性按综合相似性运算提取用户个性化和群体化认知需求,进一步挖掘用户潜在的认知力度;另一方面可清晰诠释外显—内隐的转换功能,图书馆可借助用户画像全面、系统探究用户的真实行为状况,保持用户信息原貌的方式动态跟踪用户认知变化,避免图书馆产品设计偏离用户需求轨道,从而提高用户认知需求的透明度。随着用户知识结构的不断更新,使得用户借助信息查找等动态行为逐渐覆盖或融入已有信息领域,用户画像通过对用户动态和静态信息的实时监察,可以达到深度识别用户认知需求的目的,从而为图书馆开展以用户为中心的智慧化服务提供借鉴。
3 用户画像建模的关键节点
用户画像作为图书馆知识推荐和创新引导的关键技术,对图书馆资源深度聚合、用户信息细粒度检索、精准把握用户认知诉求具有针对性作用。用户画像的核心工作是标签化用户数据,目的在于利用计算机进行组织处理和分类统计,易于人们理解。用户画像的构建依赖于用户数据,加强用户画像分析的饱满度,更离不开数据的标准化选择和有效的科学数据处理方法,以面向用户信息行为与用户认知的交互协作中来完善图书馆资源推荐服务。
3.1 明确数据标签化的操作方法
通常用户画像标签化描述主要来源于两种渠道,一种是依据用户行为特征,通过问卷调查的形式分类统计得到,另一种是借助算法和数据挖掘等技术提炼高精度的数据特征,进而实现用户与需求的准确衔接。考虑到用户数据类型的多样性、信息采集方式的智能化和有效性,文章采取多维度数据采集、系统挖掘、分析相融合机制打造图书馆用户数据标签化。在信息交互的网络环境中,用户数据不单单是客观存在,更是用户主观意识对认知需求的反映,因此在用户行为轨迹的基础上,可根据不同的数据挖掘算法分析用户行为特征,形成基础数据标签,从数据的不同视角探讨用户标签体系结构,预测用户行为倾向,进行数据特征提取并进行数据描述,智能对用户行为数据进行计算和处理,并可依据用户历史行为轨迹与用户需求项目的关联性来预测用户态度偏好,并进行不同情境的定向分析,形成行为心理表征,进而提高用户服务选择的准确性和能动性,在用户信息行为的交互过程中解析用户认知活动。
3.2 确定多维度数据类型和来源
用户认知过程中产生的数据构建了用户画像系统,它反映了用户在信息交互过程中的常态化信息需求。数据层以数据管理系统为数据汇聚点并整合4大数据因子。①用户基本属性数据,这一类型数据主要包括用户姓名、年龄、教育层次、学号、专业、身份证号、所在院系等静态数据,可从图书馆注册系统中收集整理。②用户动态行为属性数据,其可代指用户在不同场景留下的访问轨迹,包括检索方式、数据库使用偏好、页面驻留时间、信息检索时长、借阅痕迹等,此类数据来源于图书馆各大应用系统,例如图书馆门户网站、图书馆自动化系统、用户借阅数据库等。③用户互动属性数据,包括互动点评、App文本、信息收藏、咨询、服务建议等,数据主要从微信、QQ、图书馆服务社区评论中获得。④用户偏好属性数据,包括数据偏好类型(图片、视频、文本)、信息内容类型(出版社、文献作者、文学、爱情、发表年代等),信息主要从图书馆文献检索系统采集。鉴于用户画像的专注点在于刻画用户特征,用户数据的全面性并不是文章研究的重点。为实现最佳的数据规划和管理,用户画像需要将多种数据并行处理并提取特征信息,可将图书馆注册系统、图书馆门户网站、图书馆自动化系统、用户借阅数据库等各大系统中的数据进行合并存储,以可信度的计算方式赋予每种数据权重值进行加权求和,以实现数据归一化的目的。
4 基于用户认知需求的图书馆用户画像建构
传统图书馆服务一般以用户需求为关键节点,借助馆员语言引导、阅读推广、品牌宣传、语音参考咨询、网络检索等方式来探知用户认知表象。信息服务的好坏对用户认知的影响直接体现在用户接收信息和利用的效果上,所以用户认知和信息服务关系密切[14]。在信息服务的全周期中,若用户不能清晰接收信息,则表明此次信息服务满意度欠缺,用户依然存在认知障碍。如果将用户对信息的感知、吸收和运用当作是一种运动流程,那么用户认知则是这种运动状态的内部来源,用户自身的认知过程决定用户外在信息接收的广度和深度[15],而用户画像作为当今时代衍生的新型技术,可从内部思维即认知心理学的视角并结合外部思维即用户数据来了解用户认知需求的探索动机和认知规律,减少新的知识结构和新的检索手段给用户认知带来的冲击,结合图书馆用户强关联性数据,引入目前的文本处理、深度学习、数据挖掘、监督模型等智能处理技术,从用户数据的采集、处理、预测和分析应用层面出发,构建面向用户认知需求的图书馆用户画像系统模型,在架构上分为数据层、处理层、预测层、分析层4大模块,见图1。其核心理念在于收集用户正相关数据,在数据处理和预测功能的基础上,建构分析用户认知需求的用户画像技术模型,实现用户认知需求的精准分析。
图1 面向用户认知需求的图书馆用户画像系统模型图
4.1 系统数据层
以大数据思维为导向的信息分析,用户画像的数据选择应优先设定数据类型。由于数据主要分为用户、商品和渠道3种类型[16],用户认知需求又受限于用户年龄、认知方式和能力、搜索任务难度高低的影响[17-18],所以文章对多维度数据的采集主要增加4种用户数据类型的权重,鉴于用户群体的广泛性,数据类型主要分为用户基本属性数据、用户动态行为属性数据、用户互动属性数据、用户偏好属性数据。对于数据采集问题需要明确两点:①重点聚焦强关联数据,淡化弱关联数据。为提高用户画像数据的关联性,可以增强用户的强关联信息(包括用户数据库使用类型、检索手段的选择、图书馆资源的利用程度、用户基本信息、可支配时间、用户登录活跃频次等)的关注度,而对于用户家庭状况、面貌长相、语言举止等弱关联信息可忽略不计。②将数据化零为整,统一结构。考虑到数据类型中半结构化和非结构化数据类型居多,所以数据的结构化处理是数据层面临的一大问题,如何从底层数据转换成高层数据、打造高价值的数据标签是数据处理的首要任务。
4.2 系统处理层
处理层是剖析用户认知需求的核心组成部分,该成分将底层标签转化成高层标签,描述用户的个性化、精准化信息特征,采用文本处理、深度学习、数据挖掘3种技术形式来发掘不同信息资源之间的潜在关系,用于追踪不同用户认知的进展过程,提高用户对知识的积淀率和认知水平。由于用户浏览的原始文本(网页信息、图书信息、用户信息等)信息结构复杂、噪音标签问题显著,可通过token抽取法区分用户信息主题词,消除无用标签和特殊符号,以便达到文本预处理的阶段。对于文本信息特征值的提取,通常会采用TF-IDF和Word2Vec相结合的方式实现对文本特征值的挖掘。TF-IDF是一种在文件集合中可以评估词语、语料库重要程度的统计方法,其主要工作原理是:若某个词语或短语在文章中出现的TF(频率)偏高,而在其他文章中很少发现,则可认为该词语或短语具有较好的类型区别能力。Word2vec采取Word2vec模型将每个词语映射到固定向量空间中,然后利用相关向量预测信息特征。二者的有效结合和运用可以增加信息特征值的区分能力,减少冗余信息,提高相似文本之间计算的准确性,并利用非线性分类器对文本区域内的特征向量进行分类。通过模拟人类大脑神经网络功能连接并创建结构模型,借助多层感知器来处理信息点评与咨询、用户偏好类型等信息,将这些信息根据其特征自动分解,逐渐将原有的信息空间更新为新的信息特征空间,结合用户特征进行模型训练。由于用户画像可以全面、立体化地突出用户零碎化的数据信息,可在群体预测的功能模块下植入数据聚类、关联、分类的数据挖掘方法,从用户画像库中筛选潜在用户群体并进一步细化不同群体之间的画像,按照个人画像和群体画像的分类模式详尽标签化用户特征,借助个性化与精准化的服务手段深入了解用户认知需求。针对用户登录频次、检索时间段分布、页面检索时长等场景化、动态化信息,可借助数据挖掘串联纷繁冗杂的数据信息,最大限度地展现数据智慧。这里的挖掘主要集中于LBS(基于位置感知的信息服务)的数据攫取,通过智能清洗海量LBS日志,将用户感知信息与POI进行匹配,其中POI叫作用户兴趣点,它指用户所达地点的记录,假设用户在检索信息时停留的时间、搜索信息的场所被锁定,那就说明这个位置可为用户带来某种效用,用户对此类信息产生兴趣,图书馆服务结合用户区域和实际位置可甄别用户需求、提升服务水平,最后依据用户的实时信息和变化信息行为反馈到数据处理层中进行动态处理,并为预测层中的服务更新奠定基础。
4.3 系统预测层
预测层可帮助图书馆分析和预测用户信息行为各元素之间的交互关系,构建合理的用户认知评价体系,帮助用户改善其认知需求,便于图书馆对服务和馆藏信息进行调整。预测层操作流程借助无监督学习(社区发现)、半监督学习(标签传播)、监督学习(随机森林)完成服务信息的精准投放、个性化结果呈现、重点信息聚焦等预测功能。无监督学习通过数据集的变换以降维的方式替换高维的数据架构,借助少量特征概括用户行为特性。其最典型的代表就属社区发现,社区发现也称为图聚类,其与聚类功能相似又异于聚类,旨在将认知相同的数据点集中于一簇,以最优的切割方式将用户信息属性划分成不同的社区。监督学习是运用标记的数据来判断相关功能的机器学习任务,可以综合分类和回归的方法从用户信息请求中甄选部分元素,然后利用最优的求解方案将学习模型应用于定向用户,最后进行资源分配的诊断。随机森林属于监督学习的一种,针对处理层数据特征提取的精准度失衡、分类效率低下等问题,随机森林作为集成学习算法的特殊领域,对于每一类数据因子抽取相应特征值域凭借优化方法整合成数据森林,实现用户信息整体预测的效果。半监督学习处于无监督学习和监督学习之间,主要解决用少数的标引数据和多量的未标引数据进行训练和分类的问题。标签传播作为半监督学习的特殊形式,其以已标数据节点为监督对象达到预测未标记节点的标签信息目的。类属于监督模型的三种不同技术:社区发现、标签传播、随机森林的有效联合和使用提高了数据分析的鲁棒性和稳定性,对于分析层中用户认知需求预测、用户认知需求社区发现、用户认知需求个性化体现、用户认知需求决策调整创造了有利条件。
4.4 系统分析层
4.4.1 用户认知需求预测
用户认知空间不仅涉及用户的认知方式和行为呈现,更包含用户的情感、心理活动和内部知识特征等倾向性流露,用户认知需要借助适当的信息环境,并在相关信息检索任务的基础上产生心理共鸣,通过用户画像的深入挖掘,在预测层的立体互助下,融合社区发现的降维功能、标签传播的资源诊断性能、随机森林的整体预测技术处理图书馆用户信息偏好类别、浏览痕迹、阅读行为、社交咨询等信息复杂、不规整和趋向问题,揭示用户认知在信息交互趋势下的需求特征,从用户数据痕迹深度挖掘用户心理需求,基于用户画像可视化信息服务反映不同用户在认知需求方面的差异性,并能通过差异性预测用户认知需求走势。由于图书馆服务的多样化和图书馆用户素养的相异性,用户画像的构建有助于用户资源定制、服务精准营销、细化智慧服务、获知用户需求等。
4.4.2 用户认知需求社区发现
用户画像侧重于为用户“画”画像,由于描摹用户画像会在不同的区域体现出不同的兴趣倾向,即用户画像具有明显的社区性。用户画像与用户信息数据的有效结合可以划分个人社区和群体社区,个人社区集中了用户的信息特征,详细标签化用户信息需求,这样反映出的画像更能体现用户个人认知需求,有利于通过个性化推荐服务改善对自身需求的理解度。群体社区可借助监督学习模块的标签功能以综合聚类的形式、以用户兴趣相似的计算手段来减少由于数据量过大而造成的信息负载问题,智能诠释用户认知特征,缓解图书馆资源藏与用之间的矛盾,为精准化服务提供便利。
4.4.3 用户认知需求个性化体现
个性化体现从用户本身供给信息需求入手对个性化服务进行私人订制,通过分析用户兴趣偏好,推测用户行为背后的认知特征。目前用户兴趣偏好的识别主要通过用户主动报告和用户行为识别两种方式[19],其中后者最为常见。用户画像系统在对用户进行信息资源兴趣监测时,由于用户信息检索的时间间隔、浏览频次在不同情境下,其表征程度不尽相同,并且加上资源多样性凸显的资源特性折射出的用户情感程度存在差异,所以系统依靠处理层中文本处理功能和预测层中标签传播的数据标引功能,针对不同用户类型的兴趣程度计算多属性空间向量标引值,标签化用户认知综合偏好。根据用户偏好数据停留的时间阈值,探知用户信息偏好流动的轨迹程度,将用户兴趣信息与相关信息流进行精确匹配,用于解决图书馆信息资源的冷启动问题,实现用户认知需求的个性化。
4.4.4 用户认知需求决策调整
由于认知需求这一心理特征无法直接测量,一般需要借助信息行为采集和分析方可察觉。用户画像技术的导入从双向维度反映用户认知变更趋势,不仅偏重用户信息行为的外在表现,还强调用户需求背后隐藏的内在认知动机。但是在信息交互背景下,用户认知会受到检索环境、专业背景、知识储备、学习偏好、情感因素等条件的影响,构建用户画像与用户认知需求系统模型,并借助用户反馈机制及时调整用户认知需求,针对图书馆忠实用户、活跃用户、普通用户的信息需求制定分层策略,调整图书馆服务方式。
5 结语
用户画像是用户标签多样化的整合,是由用户基本属性数据、动态行为属性数据、互动属性数据、偏好属性数据4个标签类别构成,不同数据标签的权重比值会随着用户的阅读时间、检索方式以及信息行为的变化而更新[20]。为了保障用户画像的真实可靠性,图书馆应以强关联数据作为优质数据分析的关键窗口, 利用智能处理、预测分析技术对用户痕迹进行采集、结构化、分类、相似性计算等高级处理,动态分析用户认知背后的需求内容,从需求预测、社区发现、个性化展现、决策变更4个层面与用户需求信息定向匹配。面向用户认知需求的图书馆用户画像系统的构建,可对不同维度的用户进行不同层面的画像并区分用户认知风格,规避图书馆“服务近视”的风险,帮助用户从迷航的认知现状中厘清自身需求,在服务品质和时效性上最大限度满足用户需求。
加强用户画像技术在图书馆的有效实施以及满足用户需求的动态分布,用户画像系统在图书馆的重构和组建有利于提高馆藏资源的信誉值,减少用户流失、完善信息冗杂的信息检索系统、降低噪声信息干扰。但是对于用户数据精确分类、处理、画像建模、分析应用、智能反馈等各项工作在运行中面临的重重问题应着重考虑。首先,由于图书馆已不再是用户获取资源的单一渠道,图书馆在拓展用户服务、透析用户认知需求的同时,用户信息采集的精准性是当前用户画像系统标注的关键,这样才能保证用户认知需求满足的正相关性。其次,用户画像中引进先进技术分析数据应该对号入座,这也是数据处理与分析的重点,先进技术还在冗余信息的剔除、关键信息的截取等方面发挥不容小觑的作用,并通过系统的反馈调节来完善用户认知预测服务。最后,应杜绝用户隐私信息泄露、利益驱动等不良现象的发生,以免损害图书馆的品牌声誉、降低用户获取信息的满足感。