图书馆读者用户“脸谱”绘制研究
2017-10-19朱白
朱白
(商洛学院图书馆,陕西商洛 726000)
图书馆读者用户“脸谱”绘制研究
朱白
(商洛学院图书馆,陕西商洛 726000)
大数据时代如何将图书馆海量数据进行整合、挖掘,还原读者的真实面目是图书馆精准服务内容之一,提出通过分析读者用户数据并建立模型,结合读者用户的基本信息和行为信息为用户打上标签的思路来绘制读者的“脸谱”,从而实现读者需求喜好的精准定位,对进一步实现图书馆大数据应用有一定的借鉴意义。
图书馆;脸谱;标签;用户画像
随着互联网的不断发展,如何利用大数据挖掘、分析读者用户的潜在价值,已经成为各大数字图书馆研究的重要课题。与传统的线下读者用户管理相比,大数据技术的应用能够快速地分析读者用户的行为习惯、阅读习惯等重要信息,从而更加精准地定位读者的喜好,提升图书馆服务水平。为了进一步深入地了解用户,提出为读者用户绘制“脸谱”概念,通过用户画像[1],完美地呈现出读者用户的信息全貌,对图书馆更好地为用户服务以及数字图书馆大数据应用研究等有着重要意义。
用户画像作为大数据应用的基础,是数字图书馆推动读者精准服务作用的最直接体现,在用户画像方面,不同的学者从不同的角度进行了研究,如曾鸿等[2]对微博大数据用户画像与精准营销进行研究,认为在品牌的传播与建设中,用户画像是一个不错的选择。何雪海等[3]提出一种大数据网络安全用户行为画像,能应用于异常检测、日志审计、网络安全评估等。黄文彬等[4]采用频繁模式挖掘、构建概率矩阵、计算熵等方法,从用户基站日志中所包含的地理位置信息入手,对构建移动用户行为画像进行了研究。吴明礼等[5]利用Spark的并行计算能力,并结合时间和空间两个维度,对用户精细化画像处理大量数据计算的速度进行了研究,取得了不错效果。但这些研究都没有从用户画像具体流程角度分析,本文则主要通过研究用户基础数据、行为建模等方面入手,对图书馆读者用户画像的流程进行阐述,为图书馆用户“脸谱”的进一步应用打下基础。
一、用户“脸谱”绘制介绍
用户“脸谱”绘制,即根据用户社会属性、生活习惯和消费行为等信息而抽象出的一个标签化的用户模型[6],又称用户角色(Persona)。Alan Cooper(交互设计之父)最早提出了persona的概念:“Personas are a concrete representation of target users.”Persona是真实用户的虚拟代表,是基于一系列真实数据(Marketing data,Usability data)之上的目标用户模型[7-8]。该模型可调研了解用户,然后根据用户的行为、偏好和目标之间的差异,进行聚类分群,再从每种类型中通过典型特征分析,并对这些特征赋予一些人口统计学要素和一些场景描述,如姓名、性别、年龄、照片等,就形成了一个人物原型(personas)。
用户画像是通过分析用户尽可能多的数据信息得到的,源于数据但高于数据,它是绘制目标用户“脸谱”设计方向、联系用户诉求的有效工具,因此在各领域被广泛应用。构建用户画像的核心工作是给用户贴“标签”,通过数据加分析,用若干标签来描述一个模糊用户的过程,标签是通过对用户信息分析而来的高度精炼的特征标识。
图书馆用户画像是对符合特定业务需求的的读者用户的形式化的数据描述。读者用户画像在具体操作的过程中,通常以贴近生活、浅显易懂的话语把用户属性和行为数据联结起来,形成实际用户角色的虚拟代表。
二、用户“脸谱”绘制流程
为了让整个用户“脸谱”绘制的工作有秩序,有节奏的进行,可以将用户画像分为以下三个步骤:基础数据采集,用户行为建模,构建用户画像。如图1所示。
(一)基础数据采集
基础数据大致可分为用户属性数据和用户行为数据两大类。
用户属性数据:主要为用户相对稳定的静态信息数据,如人口属性:性别、年龄、学历、教育程度、年龄层次、家庭情况、职业/行业、国籍、籍贯、职务、收入水平等。
图1 用户脸谱绘制流程图
用户行为数据大致包括三类:服务内行为数据,如网站、APP的访问来源、浏览路径、页面停留时间、访问深度、唯一页面浏览次数等;网络行为数据,如读者的活跃人数、页面浏览量、访问时长、激活率、外部触点、社交数据等;用户交互数据,如交互场景、贡献率、客单价、连带率、回头率、流失率、点击率、收藏率、购买率等。
(二)用户行为建模
在完成跨系统基础数据整合、分类采集的基础上,需要进一步进行搭建用户“脸谱”绘制框架模型。如图2所示,数字图书馆用户“脸谱”绘制的实现模型可分为三层,即资源层、数据采集层和数据挖掘层。资源层是用户“脸谱”绘制的基础平台,也是数据源的有效组织、整合,信息来源包括用户属性信息的静态数据信息和包括用户行为属性的动态数据信息。数据采集层是用户“脸谱”绘制的基础,通过多种方式采集用户的静态属性信息和动态行为数据,并存储到原始数据库中,同时将用户交互界面的反馈信息补充到数据库中,以便丰富采集层数据的维度。数据挖掘层是用户“脸谱”绘制的核心,需要用计算机算法不断地对数据进行清洗、集成、变换、归约等预处理,并初步完成用户识别和给用户打标签,从而建立用户个体画像,用户个体画像完成后再通过数据挖掘算法进一步完善标签模型、构造用户群体画像和关系图谱,最终输出分析结果,并将可视化结果展示给用户。
(三)构建用户画像
通过用户画像构建模型经过分析得到最终数据后,需要对读者用户“脸谱”进行绘制,通常用一组标签的集合来描述一个用户,将一个用户复杂的特征通过若干个角度来进行衡量和刻画,每个标签就是其中的一个角度,这些角度之间彼此联系,共同形成这个用户整体特征。通常用来描述用户信息的标签具有“语义化”和“短文本”两个重要特征。所谓语义化,指能够较好满足业务场景需求,让人能够理解每个标签含义,使用户画像的构建模型具备实际意义。所谓短文本,是指标签本身不需要再做过多文本分析和预处理工作,通常每个标签就只有一种含义,计算机能够根据事先制定好的标签规则,读取标签信息,通过算法计算来做聚合分析,从而为机器学习、利用算法提取标准化信息提供了一定的便利。所以,用户“脸谱”绘制的结果就是通过为用户打标签的方式来描述用户信息。如以下描述:男,生于1980年,出生于上海市徐汇区,已婚,祖籍苏州吴江,中国职业篮球运动员,NBA全明星,小巨人。这样一串描述就是用户信息标签化,也是用户画像的典型案例,如图3所示。
图2 用户画像构建模型图
用户标签绘制可分为数据源分析、目标分析、形成用户标签等三个步骤。
数据源分析,指通过聚类分析所有用户相关的数据,将分析结果划分为多个子类,以便后期枚举、迭代扩展信息纬度时方便机器学习、打标签等。根据业务场景和业务需求,在做数据源分析时将用户数据分为两大类,如将相对稳定的一些静态数据划分为用户属性类数据,将不断变化的动态数据划分为用户行为类数据。用户属性类数据主要指用户的人口属性信息,如:性别、年龄、学历、教育程度、年龄层次、家庭情况、职业/行业、国籍、籍贯、职务、收入水平等等。这类信息作为自然标签,不需要进行过多建模预测,只需要做好数据清洗工作即可。用户行为类的动态信息数据,主要指不断变化的用户行为信息,在互联网上,用户行为,可以看作用户动态信息的唯一数据来源。如个人兴趣偏好(影视、音乐、旅游、摄影、游戏、体育等)、休闲方式、情感取向、生活态度、工作区域、居住区域、休闲区域、出行方式、是否车主、是否自购住房、社交圈、消费心理、服务偏好、阅读偏好、推广接受度等。
目标分析,指在用户聚类分析结果的基础上,对用户的行为数据进一步分析并为用户打上标签、赋予权重值。用户标签信息可以反映出用户对某类图书有兴趣、有需求等,而权重值则表明了用户对该类图书的偏好指数、兴趣度、需求度等的概率指数。
形成用户标签,用户标签统一视图分四个层次,基本属性、分析属性、标签属性、营销属性等,如图4所示。
图3 用户信息标签化
图5 四层次的用户标签统一视图
基本属性层次通过整合各个系统的基本数据,如用户属性数据和用户行为数据等;分析属性层次基于基本数据之上的统计、分析,如总体关联分析、用户价值分析、用户行为分析、用户分群信息等;标签属性层次为刻画用户特征生成的标签,如规则类标签、行为类标签等;营销属性层次针对特定的营销活动场景分析的属性,如图书潜在用户属性、接触时间属性、接触渠道属性等。最终通过原始信息、统计汇总得到事实信息、各类预测分析信息、结合业务场景应用形成应用类标签四个要素来完成用户进行“脸谱”标签的绘制,如图5所示。
三、用户“脸谱”应用前景
构建用户“脸谱”为用户画像的目的是为了充分了解用户,使图书馆进而为读者用户提供更精准的服务和更好的用户体验,为读者用户进行“脸谱”绘制,有着广泛的应用前景,可以应用在用户统计,如阅读排行,最受欢迎的图书TOP10、人群分布等情况;在数据挖掘方面,可以分析潜在用户,开展个性化推荐系统的研究,快速高效地从海量的数据和信息中获取有关知识,提高资源检索和推荐的智能水平,满足各类用户不同的个性化需求[9-10];也可以对图书馆应用系统进行效果评估、完善图书管理系统、提升服务质量、提高服务水平,还可以进行业务经营分析,通过对读者用户画像进行分析,制定图书馆发展战略等。
在“互联网+”、虚拟化、云计算和大数据技术时代背景下,个性化的用户“脸谱”绘制是图书馆未来通过推荐系统实施精准化服务的突破口,特别是图书馆不断完善数据基础平台、以读者用户为中心,了解用户、体察用户、懂得用户、服务用户,提升用户体验方面起着重要作用。本文提出了图书馆读者用户“脸谱”的绘制方法的思路、并对“脸谱”的实际应用进行了概述,在具体构建智能推荐系统应用方面还需要进一步深入研究,在推荐算法方面还需要在更多的数据集和大数据集上进一步测试验证。
[1]郝胜宇,陈静仁.大数据时代用户画像助力企业实现精准化营销[J].中国集体经济,2016(4):61-62.
[2]曾鸿,吴苏倪.基于微博的大数据用户画像与精准营销[J].现代经济信息,2016(16):306-308.
[3]何雪海,黄明浩,宋飞.网络安全用户行为画像方案设计[J].通讯技术,2017,50(4):789-794.
[4]黄文彬,徐山川,吴家辉,等.移动用户画像构建研究[J].现代情报,2016,36(10):54-61.
[5]吴明礼,杨双亮.用户画像在内容推送中的研究与应用[J].电脑知识与技术,2016,12(32):255-259.
[6]王庆福.贝叶斯网络在用户兴趣模型构建中的研究[J].无线互联科技,2016(12):101-102.
[7]尤骏杰.大数据营销理论及其在游戏运营中的应用[D].苏州:苏州大学,2016:27.
[8]刘鹏.基于Spark的数据管理平台的设计与实现[D].杭州:浙江大学,2016:17-34.
[9]朱白.数字图书馆推荐系统协同过滤算法改进及实证分析[J].图书情报工作,2017,61(9):130-134.
[10]王敏,嵇绍春.基于模糊聚类和模糊模式识别的数字图书馆个性化推荐研究[J].现代情报,2016,36(4):52-56.
(责任编辑:彭治民)
The Research on Plotting the"Facebook"of Library Readers
ZHU Bai
(Library of Shangluo University,Shangluo 726000,Shaanxi)
How to integrate and mine the massive data in order to restore the original visage of one reader in the big data era is a component of the accurate library services.An idea that is labelling the users to plot their real"facebooks"is proposed through analyzing the data of the library readers,establishing the model and combining the basic information and the behavior information of the library readers,so as to realize the accurate portrait of the needs and likes which the readers actually have and help to realize the application in the big data of the library.
library;facebook;label;userportrait
G252
A
1674-0033(2017)05-0087-04
10.13440/j.slxy.1674-0033.2017.05.018
2017-07-20
朱白,女,陕西商州人,馆员