大数据环境下用户画像在高校图书馆的应用研究*

2019-06-05袁军

图书馆研究与工作 2019年6期

袁军

（许昌学院图书馆河南许昌 461000）

随着社会信息化程度的日益提高，大数据已经成为新时期信息技术和产业发展的重要方向。用户画像作为大数据时代用户分析及服务设计的有效工具，目前已经在很多领域得到了广泛应用。特别是在电子商务和信息服务领域，商家和企业可以利用用户画像技术，准确识别和分析目标客户，了解和预测用户需求，提高企业的决策效率，实现成功营销。用户画像技术也为图书馆服务模式的创新和未来的发展提供了机遇。大数据环境下，图书馆的服务正面临着一系列挑战，特别是高校图书馆，面对丰富的信息资源和广泛的读者类型，现有服务模式与不同用户的多样需求之间的矛盾日益突出。高校图书馆要想更好地服务用户，就要了解和满足用户需求，为用户提供个性化、精细化服务，因此，把用户画像技术引入图书馆领域，构建用户画像就显得尤其重要。

1 用户画像的概念

用户画像又称用户角色，是大数据时代的产物。交互设计之父Alan Cooper最早提出了用户画像（User Persona）的概念，Persona是真实用户的虚拟代表，是建立在一系列真实数据之上的目标用户模型[1]。该模型可调研了解用户，然后根据用户的行为、偏好和目标之间的差异，将用户分为不同的类型，再从每种类型中抽取出典型特征，并赋予姓名、性别、年龄、照片等一些人口统计学要素和一些场景描述，即形成了一个用户画像。

David Travis认为用户画像具有P（基本性，Primary research）、E（移情性，Empathy）、R（真实性，Realistic）、S（独特性，Singular）、O（目标性，Objectives）、N（数量性，Number）、A（应用性，Applicable）的特性，满足以上7个条件才能构成一个完整的用户画像[2]。大数据环境下，把用户画像技术引入图书馆领域，目的在于了解用户，预测用户的真实需求和潜在需求，进而为图书馆用户提供更加精准的信息服务。

2 国内外研究现状

用户画像作为大数据时代勾画目标用户、联系用户诉求与设计方向的有效工具，在数据统计、数据分析方面具有明显优势，已成为近年来国内外学术界关注的热点问题，围绕用户画像的理论研究与应用研究也相继展开。

国外学者比较重视对用户画像技术算法的研究，比较常用的有：分类算法、加权算法、过滤算法、向量空间模型算法、朴素贝叶斯分类法等，学者们会根据用户的长期或短期爱好分别采取不同的算法来构建用户画像模型。用户画像在国外图书馆领域的应用最早出现在20世纪80年代，应用于英国国家书目和Blaise-line（欧洲首批在线服务之一）的服务优化，有关人员通过对英国国家书目和Blaise-line用户的订阅情况、使用情况、满意度以及未来购买意向的调查和分析结果，重新审视自己的服务结构和服务模式，以更好地满足用户对服务的需求[3]。

国内图情领域涉及用户画像的研究成果主要有：胡媛等于2017年在《图书馆理论与实践》第4期上发表的《基于用户画像的数字图书馆知识社区用户模型构建》一文，对数字图书馆用户画像进行了模型构建和分析，并在此基础上构建综合服务能力评价指标体系，为数字图书馆社区用户描述提供了参考[4]。刘速同年在《图书馆理论与实践》第6期上发表的《浅议数字图书馆知识发现系统中的用户画像》一文，以天津图书馆为例，从数据来源、数据采集、信息识别、模型搭建等方面就用户画像的构建进行了详细阐述，并提出可视化统计描述、多维度交叉分析、用户关系图谱等用户画像分析方法[5]。汪强兵等指出，整合内容与用户行为的用户画像构建系统能够挖掘用户在阅读文献时的兴趣，并进行用户画像构建[6]。陈慧香等探讨了国外图书馆领域用户画像的研究现状，从定义与组成、算法与技术、模型构建、实践应用等方面作了详细的阐述[2]。以上研究为用户画像在国内图书馆领域的构建和应用提供了借鉴和参考。

总之，大数据环境下，用户画像在图书馆领域的研究与应用正在逐步兴起，尚未进入成熟阶段，国内图书馆界对用户画像的研究同样处于初步探索中，实践中还面临不少问题，其中涉及用户隐私和用户兴趣的变化等问题，还有待图书馆界根据实际情况进行深入分析和探讨。

3 高校图书馆用户画像的构建

用户画像是从海量的数据中产生和形成的，具体来说，图书馆用户画像模型的构建过程和步骤是：首先对图书馆各系统之间的用户数据进行整合，使用户的属性数据和行为数据相关联，然后对用户信息进行统计、分类、聚类分析，给用户建立标签体系，最后，在此基础上，进行用户画像框架模型的构建，细分用户并勾勒出个人用户及群体用户画像。

3.1 用户画像数据采集与处理

数据源是构建用户画像的关键因素，用户画像来自于大量、丰富的用户数据，只有建立在客观真实的数据基础上，生成的画像才有效，数据内容越全面，形成的画像就越精准，因此，确定数据源是高校图书馆构建用户画像的首要工作。

大数据环境下，高校图书馆的用户画像数据分为静态信息数据和动态信息数据两类。静态信息数据是指用户相对稳定的信息，即用户的基本属性数据，主要包括用户的姓名、性别、年龄、院系、职称、专业、读者类型等。由于用户在图书馆注册、借阅时都会留下实名信息，因此，这部分数据可以从图书馆用户管理系统中获取。动态信息数据是指用户不断变化的行为信息，比如用户的登录网络、借阅、检索、下载等使用行为数据。动态数据具有隐蔽性的特点，需要通过数据分析和数据挖掘进行提取，图书馆用户的行为数据主要来源于图书馆网站、书目检索系统、微信服务平台及移动终端等，图书馆用户在微信、APP移动平台上的访问、咨询、阅读及搜索等都会有相关行为数据的产生。

图书馆在对用户数据进行采集时需要从不同角度进行考虑。用户画像所需要的数据来源于不同的服务系统中，各系统之间的数据并无关联，图书馆在构建用户画像时，首先要把各服务系统之间的数据进行整合，使图书馆APP、微信平台、一卡通等现有服务系统中的数据相关联，然后统计用户在这些系统平台上的所有行为轨迹，并与用户的属性数据相结合，共同构成高校图书馆用户画像的数据来源。高校图书馆用户画像数据的构成如图1所示。

图1 高校图书馆用户画像数据构成

对用户的属性数据和行为数据采集之后，就要在充分保障用户数据隐私的前提下，首先对采集的数据进行清洗，通过信息过滤系统去除与用户特征无关的信息，然后利用数据挖掘技术对清洗过的用户数据进行计算机处理，把有关数据处理加工成能够被图书馆建模使用的数据，确保用户数据的真实性和有效性，最后形成用户画像有效数据集。

3.2 建立用户画像数据标签体系

为用户建立数据标签是用户画像构建过程中的一个关键步骤，也是用户画像的核心工作。标签为大数据处理提供了一种便捷方式，能够方便计算机程序化处理用户的相关信息，提高信息获取的精准度和效率。

用户画像数据标签是通过对用户信息分析而来的高度精炼的特征标识，如性别、年龄、地域、用户习惯、用户偏好等，最后将所有标签综合起来，就可以勾勒出该用户的“画像”[7]。标签具有语义化和短文本的特征，方便人们理解每个标签的含义，准确判断用户的喜爱偏好，使模糊的用户形象立体化。用户画像的结果就是通过为用户打标签的方式描述用户信息，标签打得是否准确和全面直接影响到用户画像的质量和结果。以图书馆用户为例，比如某科研人员习惯于使用外文数据库进行文献检索，检索的主题词常常与“计算机”相关，那么就可以根据上述信息描述为用户贴标签，进行用户画像，进而实施精准化服务。图书馆用户画像就是对用户的属性数据和行为数据进行语义化、短文本化标签，通过用户基本特征标签和行为数据标签，逐步构建分类标签、多级标签等用户画像标签结构[8]。

高校图书馆根据服务对象的不同，把用户分为教师、学生、博士、学科带头人或骨干教师等类型。在构建用户画像的过程中，应注重根据用户的信息需求贴标签，对所采集到的用户数据进行分析与挖掘，运用关联方法从用户的基本属性、阅读爱好、上网轨迹、用户活跃度等多维度去构建用户画像的标签体系。

3.3 构建用户画像模型

用户画像是用户在现实中的数学建模，高校图书馆在完成对用户数据采集、处理以及标签化工作的基础上，便可实现用户画像模型的“可视化”构建。图书馆通过对用户的属性数据和行为数据进行分析，就可以了解和掌握用户的个人偏好和行为习惯，进而运用可视化方式描述用户需求，帮助图书馆实现个性化、精准化服务。

高校图书馆用户画像模型的构建可以分为3个层次，即数据来源层、数据分析处理层以及数据标签层。数据来源层是用户画像模型构建的基础层，高校图书馆可通过管理系统、服务平台、移动终端、网站系统等对用户的属性数据和行为数据进行采集，并将数据序列化后存储到原始数据库中。同时，由于用户行为数据具有动态化的特点，所以需要图书馆建立一个有效的反馈评价机制，根据用户与图书馆资源平台交流的反馈信息，及时对原始数据库的数据进行修正与完善。数据分析处理层则是利用数据清理、信息过滤等技术对原始数据进行预处理，建立用户画像有效数据集。数据标签层是用户画像构建的关键层，图书馆通过运用分类、聚类、关联分析等数据挖掘技术对用户有效信息数据进行语义化和短文本化标签，建立用户数据标签数据库，最终勾画出图书馆用户个人画像和群体画像，并以可视化形式呈现。具体构建过程如图2所示。

图2 高校图书馆用户画像构建模型

用户画像模型的构建是一个比较复杂和不断完善的过程，其中涉及到一些复杂的计算方法，比如聚类算法、相似度计算、预测算法、语言处理、数据关联统计算法等，这些主要通过机器学习来完成。模型建成后也不是一成不变的，它会随着用户行为的变化发生改变，因此模型需要具有一定的灵活性，可根据用户的动态行为对已建立的用户画像进行实时更新、优化与完善。

4 用户画像在高校图书馆的应用

4.1 针对不同用户提供精准化推荐服务

大数据环境下，高校图书馆文献信息资源丰富、类型多样，面对海量的数据信息，用户很难从中获取到自己感兴趣的服务内容，图书馆传统的推荐服务已不能满足用户对信息资源的需求，如何快速、准确地为用户提供所需要的文献信息资源是高校图书馆信息服务的关键问题。

用户画像是用户兴趣的个性化反映，在图书馆精准化服务中起着重要作用。把用户画像技术应用于图书馆，能够创新高校图书馆的信息服务模式，解决图书馆资源推送内容与用户需求不匹配的矛盾，从而为用户提供更加精准、高效的服务。图书馆可以利用用户画像技术，追踪用户在利用图书馆的过程中留下的一些历史数据，如用户的基本信息、所学专业、借阅信息、上网记录、浏览记录等，通过对这些用户信息进行分析和处理，准确了解用户最真实的情况，发现用户行为的动机与特点，掌握不同用户个性化的信息需求偏好，或是根据用户的某一行为特征分析、挖掘出用户的潜在需求，并根据分类、聚类算法，将不同的用户群细分归类，对用户实行分级管理，区分出核心用户、普通用户、忠实用户以及潜在用户等，然后把图书馆资源与各类用户信息需求进行匹配，有重点和针对性地进行资源配置，针对不同类型用户实施各有侧重的精准化服务。这样既可以使图书馆的服务有的放矢，节省用户检索信息的时间，又大大提升了用户的体验度和满意度。同时，由于用户画像具有即时性和多样性的特征，使图书馆能够根据用户需求的变化情况，及时升级和调整信息服务策略。

4.2 开展馆藏资源宣传和阅读推广工作

高校图书馆拥有丰富的馆藏文献资源，在全民阅读中担负着重要的社会责任，发挥着引领作用。开展阅读推广活动既是高校图书馆的职责和核心服务工作，也是提高馆藏资源利用率的重要举措。

传统阅读推广服务的内容和形式都比较单一，一般采用一些固定的模式，针对性不强，对用户而言缺乏吸引力和创新性，且往往需要投入大量人力、物力却难以达到良好的宣传效果。把用户画像应用到阅读推广的智能推荐系统中，就可以帮助图书馆实现个性化、精准化推送，打破无差别推广的现状。高校图书馆可以利用用户画像技术，动态跟踪用户使用图书馆的行为轨迹，根据其知识背景、阅读特点、阅读习惯、阅读历史等，把用户分成不同的群体类型，将具有相同阅读倾向和阅读兴趣的用户归为一类，使宣传、推送内容与用户需求相匹配，为用户量身打造个性化的阅读书目，针对不同用户群进行新书推荐，并根据用户信息数据的变化情况及时调整阅读推广的内容和方法，避免因盲目推送而造成对用户的干扰，使阅读推广工作更具有目标性，向着更加精细、更高质量的方向推进。同时，充分利用用户画像，在校园网、微信、微博等平台开展馆藏资源宣传和阅读推广工作，通过举办读者借阅排行榜、最受欢迎的图书排行榜等评选活动，激发用户的阅读积极性，提升用户对图书馆阅读推广服务的个性化体验。

4.3 开展用户信用管理

当前，在高校图书馆普遍存在着损坏图书、图书超期、盗窃图书、恶意下载资源等不良现象。针对这些严重的用户失信行为，图书馆一般只是采取口头教育或轻微的经济处罚方式，但往往收到的效果不好，对失信用户起不到威慑作用。用户画像技术为高校图书馆开展用户信用管理提供了借鉴，图书馆应在用户个人征信方面实施有益的探索与实践，以防范或减少用户在使用图书馆资源和服务过程中产生的信用风险。

高校图书馆可通过用户画像收集、分析用户信用数据，配置信用资源，建立图书馆用户信用管理系统，将用户信用纳入个人征信记录，对用户的信用行为进行分类管理，根据用户不同行为给予一定的奖励和处罚，以降低图书馆资源管理风险。对信用度高的用户提供优惠待遇，比如增加借阅图书的册数、适当延长借阅时间，使其能够更好地利用图书馆资源。同时，对失信用户采取相应的处罚措施，降低他们在图书馆获取资源与服务的权限，让用户意识到其失信行为的严重性，从而更好地限制和约束个人行为，自觉遵守图书馆的相关规定。

4.4 协助制定科学合理的发展规划

科学合理的发展规划是高校图书馆可持续发展的保障，用户画像技术为高校图书馆的未来发展提供了新思路。高校图书馆可利用用户画像来了解某一类群体用户的共同特征，并根据用户的整体兴趣和需求走向对图书馆的发展和建设进行科学规划，为图书馆的文献资源配置、空间布局、科学管理以及规章制度的制定等提供决策参考。比如，根据用户使用图书馆的行为习惯，设计或调整图书馆的布局结构；针对用户使用电子资源高于纸质资源的情况，适当调整资源配置。

用户画像即时性和数据维度多样性的特征可以为使用者提供全方位、全过程的数据分析，帮助高校图书馆管理层及时发现、掌握用户信息需求的变化，为图书馆服务决策的制定提供高效、可靠的数据支持，确保决策制定的科学合理性。