用户画像视角下数字图书馆个性化信息服务建模与分析
2020-06-12尹婷婷曾宪玉
尹婷婷 曾宪玉
摘 要 文章针对用户画像技术在数字图书馆个性化信息服务领域的应用实践及发展现状进行研究与分析,基于用户画像技术建立由数据来源层、数据分析整合层及数据挖掘层构成的三层数字图书馆个性化信息服务模型。最后,从预测用户潜在阅读需求、开展群体服务、关注用户画像与资源模型的匹配度等方面,对基于用户画像技术的数字图书馆个性化信息服务的应用模式进行探讨与分析,为大数据背景下数字图书馆个性化信息服务提供支持与保障。
关键词 用户画像 个性化信息服务 馆藏资源
Abstract Firstly, this paper studies and analyzes the application and development of user profile technology in the field of personalized information service of digital library. Secondly, based on user profile technology, the three-layer digital library personalized information service model is established which is consisting of data source layer, data analysis integration layer and data mining layer. Finally, from the specific aspects of predicting users potential reading needs, developing group services and paying attention to the matching of user profile and library resource models, the application mode of digital library personalized information service is discussed and analyzed based on user profile technology, in order to provide support and guarantee for the digital library personalized information service under the background of big data.
Keywords User profile. Personalized information service. Library resources.
0 引言
在“互聯网+”信息时代背景下,信息化服务建设已经成为社会各行各业转型升级的发展重点。对于图书馆而言,随着大数据技术的应用与发展,与用户信息行为轨迹相关的数据信息越发全面与完备。目前,依据不同的用户需求和知识需求,为不同用户提供符合其需求标准的个性化信息内容,已成为图书情报和信息传播领域日益关注的焦点与难点[1]。总体而言,随着智慧图书馆的建设与发展,图书馆馆藏资源不断增加,如何挖掘用户感兴趣的、有针对性的信息资源已成为目前图书馆亟待解决的重要问题,而用户画像技术作为一种在信息时代背景下能够科学、快速、精准地实现资源信息推送及个性化服务的核心算法,为数字图书馆个性化信息服务提供了发展方向及技术支持。用户画像技术通过对用户信息及其在图书馆网络系统内的行为痕迹进行深度数据挖掘,完成发现与提炼的过程,从而进一步描绘出用户信息的完整面貌,深入揭示信息资源与用户需求之间隐含的关联关系,最终在庞杂、海量的数据信息库中寻找、挖掘、提炼出用户需要的准确资源信息。因此,本文借鉴已在计算机和电子商务等诸多领域取得了重大研究进展及成果的用户画像技术的实践经验,在用户画像视角下构建数字图书馆个性化信息服务模型,并对数字图书馆个性化信息服务的应用模式进行分析与研究,以期实现更加精准的个性化信息服务。
1 用户画像的概念
用户画像的概念最早是由美国软件设计师阿兰·库珀(Alan Cooper)提出的,他认为通过用户画像构建的用户模型可以看作是真实用户的虚拟代表,主要包括用户基本属性、生活习惯和消费行为等因素,在模型构建过程中利用信息识别技术完成对用户及用户群组贴“标签”的处理步骤(其中“标签”主要指的是完整、准确的用户特征属性),随后将获得的“标签”组合起来,即为完成用户画像的整个流程[2-3]。概括而言,用户画像技术主要是通过对用户的属性信息、行为痕迹等信息进行数据处理,精炼并提取出用户个性化的标签信息,从而达到识别用户个性化信息需求的目的[4]。具体而言,王顺箐通过对读者的个人喜好和动态需求进行数理统计分析与数据挖掘,构建基于用户画像的图书馆阅读推荐系统模型[5]。单轸等基于文献分析法,通过对大数据背景下用户画像技术的应用现状进行分析,指出国内图书馆领域用户画像的现实困境与发展路径[6]。赵岩在分析大数据背景下数字图书馆用户画像的具体需求与应用现状的基础上,构建基于用户画像的智慧阅读资源推荐流程[7]。张若兰通过用户画像技术主动关联读者和馆藏资源,提出数字图书馆情景化知识推荐的服务流程[8]。纵览图情界关于用户画像技术的已有应用研究可以发现,研究主要集中在信息资源的精准推送、知识推荐服务等领域,而关于用户画像技术在数字图书馆个性化信息服务中的应用研究内容较少,仍需要深入研究与分析。
2 数字图书馆个性化信息服务的研究概述
在大数据背景下,图书馆通过对数字资源进行收集、归纳、分析等处理,为读者用户提供个性化信息推荐服务。胡迎义总结了在互联网背景下高校图书馆提供信息化服务的必要性及紧迫性,并提出改变提供信息服务的方式与方法[9];续远凤通过梳理近十年图书情报领域信息服务的发展概况,提出“借助于现代化信息技术手段、挖掘信息技术潜力从而提高图书馆信息服务水平”的观点[10];刘素清等通过对新媒体时代用户对决策信息个性化需求进行分析,基于新媒体的具体特性提出高校数字图书馆信息服务的新方向[11];安蓓基于数据挖掘技术提出高校数字图书馆信息服务优化策略,并对高校数字图书馆信息服务的策略进行了优化[12]。
数据来源层提供的用户基本数据和动态数据构成了用户画像的所有数据信息,从数据的内容而言,可以分为用户基本信息、用户兴趣偏好及用户互动数据等三类。其中,用户互动数据主要指的是对个人使用过的资源进行推荐、评价、转发、分享等。这三类数据信息可能来源于使用图书馆智慧管理系统、图书馆门户网站、相关移动平台及其他信息系统时的行为数据等,并依照不同存储格式存储于不同的异构系统中。
数据分析整合层是实现用户基本信息数据和动态行为数据获取、整合的处理层,利用专业数据挖掘技术(主要包括数据分类、聚类、关联、序列转换、信息预测等)及数据预处理技术(主要包括数据集成、转换、规约、清洗等)对获取的数据进行处理、分析与加工,得到能够用于后续用户画像技术处理流程的有效数据。
数据挖掘层是构建用户画像模型的关键层,通过利用前期得到的有效数据集合,结合包括资源搜索偏好、资源利用偏好、社会偏好、用户关联关系、活跃度、人群属性、用户资源评价等信息的用户画像标签体系,采用数据挖掘等技术对用户及用户群组进行分析研究,建立用户及用户群体画像库,从而完成用户画像模型的建立过程,其中在数据挖掘层进行数据分析处理的过程中,需要多层次、多角度、多维度进行数据处理,包括利用得到的预测模型对潜在用户及用户群组的资源需求进行分析与处理。模型构建完成后,将获得的用户画像模型处理数据以具体、生动、形象、用户易于接受的形式呈现在智慧图书馆相应的交互平台上,内容包括对资源调度、个性化服务、可视化数据等具体信息展示,进一步加强图书馆与用户之间的互动与交流,为用户提供多层次、全方位的个性化信息服务。
4 基于用户画像技术的个性化信息服务模式分析与探讨
通过对用户及用户群组的标签化处理、构建资源数据集合,建立用户及用户群组与资源数据集合之间的关联、匹配规则,从而完成基于用户画像技术的数字图书馆个性化信息服务的完整过程。因此,本小节从分析用户潜在资源需求、开展群体服务、关注用户画像与资源模型匹配度等方面入手,针对基于用户画像技术的数字图书馆个性化信息服务的应用模式进行详细的探讨与分析,为实现更加精准的个性化信息服务提供参考依据。
4.1 分析用户资源需求,精准推送馆藏资源数据
在数字图书馆个性化信息服务过程中,通过分析用户资源需求,构建用户画像的具体模型并预测用户需要的资源信息,进而针对用户可能需要的资源进行深度数据挖掘,完成馆藏资源信息的推送服务,具体的操作流程主要有:依据用户的特征信息,利用用户标签体系标记用户的个性特征;对用户及用户群组可能需要的馆藏资源需求进行数据挖掘,获取馆藏资源数据集,对获取的數据信息进行分类、提炼,得到与之相对应的元数据;科学、合理匹配用户与馆藏资源集合,建立两者之间关联规则,实现馆藏资源数据精准推送[17]。
4.2 依据动态变化数据信息,开展用户群组服务
依据得到的用户群组标签体系,对用户群组标签进行总结、分析与归纳,以便全方位、多层级对用户群组进行客观、科学、详细的描述。由于用户资源需求是实时变化的,图书馆需要及时更新并同步引用动态、实时变化的数据进行用户资源需求的描述。在基于用户画像技术的信息资源应用模式中,基于用户的相似个人属性及相似兴趣特征生成含有相似资源需求的用户群组,从而实现对相似用户群组的资源精准推送。因此,数字图书馆开展个性化信息服务过程中,可以进一步注重相似用户群组的相似个人属性及共同兴趣特征,虽然用户的信息需求是随时变化的,但是用户群组的共同兴趣特征变化幅度相对较小,更加有利于图书馆根据动态变化的数据信息开展用户群组服务。
4.3 提高用户画像与资源信息的匹配程度,优化信息资源建设
将基于用户画像获得的用户对于资源需求的信息与馆藏资源进行匹配,优化、完善图书馆的信息资源建设进程,具体的实现流程主要包括:对描述用户资源需求的数据进行标签化处理;对馆藏资源进行分类、提炼,提取馆藏资源的特征标识和关联数据信息;对获取的单个用户资源需求信息进行归纳、聚类、合并,生成用户群组的相似集合;将用户标签映射到对应的资源主题中,并与类似的资源信息集合完成匹配[18]。因此,在“互联网+”背景下,图书馆需要充分利用大数据等信息处理手段,通过准确分析用户群组的兴趣爱好,为用户群组建立个性化信息资源数据库,进一步优化信息资源建设。
5 结语
在信息服务建设快速发展的时代背景下,用户画像的应用能够精确的描述用户个性化信息属性,将这些数据信息经过标签化处理后挖掘用户的馆藏资源需求,并将其与已有馆藏资源数据进行匹配,有助于对数字图书馆个性化信息服务的改进与完善做出准确判断,为数字图书馆个性化信息服务发展提供科学依据。但是就用户画像在数字图书馆个性化信息服务方向的应用现状来说,仍面临很多挑战,如提高数据信息的利用问题、如何全面、精准的描绘用户群组共性及特性等,仍需图书馆进一步研究用户画像技术在数字图书馆个性化信息服务中的具体应用,切实提高用户及用户群组数据信息转化为有效数据信息的比例及转化速率,精准预测潜在用户的行为趋势及资源需求,为个性化信息服务的精准实现提供技术支持与发展方向。