APP下载

基于用户画像的高校图书馆阅读报告系统的设计与实现*
——以南京航空航天大学图书馆为例

2022-10-12

新世纪图书馆 2022年9期
关键词:画像标签报告

0 引言

“用户画像”最早是由交互设计之父A.Cooper提出,是建立在一系列真实数据上的用户目标模型,对真实用户的虚拟化

。从主观的画像,到以用户数据构建画像,“用户画像”在个性化服务中发挥着越来越精准的作用

。图书馆的大量用户阅读数据是构建“用户画像”的基础,通过对用户数据进行提取、清洗、统计和分析形成“用户画像”,并有效利用“用户画像”成为图书馆实现“精准服务”的发展趋势

。国外图书馆领域最早在20 世纪80 年代中期提出“用户画像”,应用于英国国家书目和Blaise-line(欧洲首批在线服务之一)的服务优化

第三,受到人力、经费以及调研时间的限制,本文访谈与问卷调查样本数量不足,而本文的假设基于访谈结果,因此可能降低研究的客观性,并且影响后期数据进行定量分析的真实效果。

当前,图书馆领域的用户画像研究主要围绕建立“用户画像”模型,如何利用“用户画像”为读者服务是当前图书馆重点关注的内容

,其中构建读者的个人画像或群体画像,综合读者借阅行为数据,实施图书的个性化推荐

,构建多维度、多层次、立体化的“用户画像”模型,描述“用户画像”在数字图书馆的具体应用场景

成为提高图书馆服务效率的重要手段。随着可视化技术的发展,以数据为基础的“用户画像”技术从内容和形式上也在不断推陈出新,形成图书馆阅读报告以展示用户与图书馆业务相关的信息,以方便用户了解阅读方向,发挥良好的指向引导作用,为图书馆阅读服务提供决策,最大限度满足用户阅读需求。基于此,本文尝试将数据与可视化分离,设计分层的技术框架,围绕读者数据构建适应高校图书馆场景的用户画像模型,满足形式多样化的阅读报告需求。

1 阅读报告系统实践及设想

在图书馆年度阅读报告中引入“用户画像”,并以生动、形象的方式呈现出用户阅读偏好,需要先对数据仓库、数据池等技术对读者阅读数据进行抓取、存储,然后进行数据预处理、挖掘分类、构建用户标签,再通过大数据分析对标签和模型进行迭代分析,从而形成“用户画像”,为阅读业务等提供决策。目前我国已有高校图书馆通过大数据技术,建立“用户画像”来揭示用户阅读特征和反映图书馆年度报告,如北京大学图书馆按星座、生肖及姓氏展示了读者的借阅特征

,华东师范大学图书馆用“图书馆的一天”展现日常信息

,这种形式报告的出炉最受读者欢迎

,其中厦门大学图书馆“Library Go”

成为图书馆品牌营销的成功案例。此外,对于此类形式的阅读报告,还有基于用户个性化小数据决策支持的图书馆服务定制和推送系统

,微信HTML5也已成为统计报告的主流趋势

。可见,数据及其可视化已成为图书馆领域的热点研究方向之一。

稳中求新。在常规考查基础上,31题中引入新的思考、情境,不但提高试题的趣味性,更加引导了考生对于生命过程的深度思考。

然而,我国高校图书馆在线上所生成的阅读报告由于缺乏技术开发经验,普遍采用线上固定HTML5模板或依赖于技术公司定制开发,导致数据展示不全面,各系统之间互动不足,灵活性较差。基于此,为了从用户大数据中挖掘出有效的特征,本文将用户大数据分类为属性数据、行为数据和偏好数据,通过数据挖掘技术进行建模,提取出用户标签,标签维度基于自然属性、行为特征、学科领域、兴趣爱好、心理特征、群体特征等维度构建画像,其中行为特征细分为图书馆的借阅行为、进出馆行为和图书馆设备使用行为等。通过上述步骤,在全方位勾勒出用户画像的基础上,形成图书馆的阅读年度报告。

从图1可知,数据可通过图书馆门禁系统、研讨间管理系统及图书借阅数据平台等多渠道抓取,并经过校验、审核、脱敏等技术措施对原始数据进行清洗,通过分库、分表的方式存储到图书馆年度阅读报告的数据库中。

2 用户画像建模及流程

“用户画像”是基于用户特征提取及需求进行深度挖掘数据而产生的标签化集合模型,主要从用户基本属性、人群分类、产品使用习惯、产品社交属性、产品偏好等信息中抽象出来。包含用户属性、用户特征、用户标签三个要素,一般遵循“数据->指标->标签->画像”的过程

构建,其用户画像的详细构建流程如下所示。

2.1 采集相关数据形成基础数据

为了了解和把握用户画像的数据范围,本研究通过对各个商业组织的年度个人报告进行了网络调查(包括微信读书、网易云音乐等),总体上发现所涉及到的个人年度报告包含个人年度总使用量、个人最喜爱的、个人总使用时长、个人使用时间最长的、个人最喜爱的分类、使用率、个人在所有用户中的使用率排名等。由此,在本研究的用户画像中,根据读者对阅读报告最感兴趣的内容,初步梳理出图书馆阅读报告的细分数据,如图1所示。

1) 在满足ma>0、mc>0、(ma+ mb)2- (mc+ s[α])2≤c[α]2≤(ma- mb)2-(mc- s[α])2等约束下,联立式(3)的4个等式即

由表5可知,本文选取的这些解释变量结合在一起能够预测被解释变量J,尽管有些解释变量与被解释变量之间的线性关系并不是非常显著,但模型总体拟合程度较好,各解释变量对被解释变量还是具有一定的解释能力,该模型可以用来解释本科生是否考研的行为。

2.2 对基础数据进行清洗形成指标数据,从而实现量化特征

无论是面向群体还是个人,“用户画像”都是要尽力描绘出该用户群体的特征,构建时要通过多维分析,尽可能获得更多的用户数据,并通过大数据分析挖掘的技术手段,全面、充分地描绘出“用户画像”显著特征。图书馆需要在深度挖掘读者的个人数据及借阅、进馆、基础设施使用等数据的基础上,抽象出具体的统计分析后的指标数据,以创建“用户画像”标签,具体的读者数据如表1所示。

2.3 对指标数据进行标签化,确定关键特征标签形成“画像”

前台UI以动画、图标等方式生动、形象地展示相关数据,其组件为HTML5+Vue。在核心技术上无论是微信小程序、快应用还是原生HTML5,主要应用了web技术栈,包括html/js/css和VueJS、React等常用前端框架,分为渲染层和模板层,通过MVVM架构将View 的状态和行为抽象化,分离视图UI和业务逻辑,以做到更通用。

(1) 静态绝对划分法:例如借阅量100本以上的叫书神,50~100本叫书圣,10~50本叫书霸,1~10本叫书虫,0本叫书僮。

将企业及行业专家“引进来”为教师、学生提供指导,学校为企业提供场所和培养人才,学校和企业双方互相帮助、相互扶持,取得“共赢”的效果。学校应鼓励商务英语教师积极参与校内的实训,基于实践业务的校内培训,使商务英语教师有更多的实践机会。要鼓励他们考取“双师型”资格证书,并在职称评聘时,对取得该资格证书的教师予以更高的奖励。总而言之,积极鼓励每位教师主动参与到自身专业化发展的实践当中来。

(3) 无监督聚类法:对借阅量数据进行无监督聚类分析。优势是更加科学、灵活,无需人为制定标准。

(2) 动态相对划分法:例如借阅量排名10%的叫书神,50%的叫书圣,50%~70%的叫书霸,70%~90%的叫书虫,90%的叫书僮。

本文选择基于权重的K-means聚类算法来进行借阅量的标签化过程。传统K-means算法首先选择k个对象作为初始聚类中心,通过欧氏距离(即公式(1)计算每个对象与中心对象的距离,并根据最小距离重新对相应对象进行划分,重新计算每个聚类均值直至没有对象再被重新分配给其他类,聚类中心不再变化,误差平方和(SSE)最小为止。

后台数据上适配DAOAdapter,以便根据DB配置和SQL模板从后台各个DB数据库中查询所需数据,并缓存、汇总,并再通过RestServer提供给前端。在核心技术上也应用Python技术栈,用以广泛支持常用的关系型和非关系型数据库,并应用于数据挖掘和大数据分析。

系统框架之所以主要采用Python技术栈,是因为其可支持各种主流数据库,可用异步网络解决访问大并发问题,以便通过MVVM架构分离视图UI和业务逻辑,做到更通用,对接多种前端,使数据展示形式更加丰富。

实践结果显示,加权的K-means算法可实现基于《中图法》分类体系的借书量聚类,与读者专业信息分类比对正确率达94.8%。通过对不一致读者的阅读偏好,即借阅图书和检索词结果显示,不一致读者所存在的专业与借阅行为之间的偏差符合实际情况。

3 基于用户画像的阅读报告系统实现

南京航空航天大学图书馆(以下简称南航图书馆)在“用户画像”研究的基础上,研发了通用框架,开发了基于“用户画像”的个性化阅读报告系统,其设计如图2所示,包含数据采集和存储、数据清洗和预处理、数据分析和读者建模,以及个性化阅读服务四部分。

本文在建模获取到“用户画像”标签后,通过设计通用技术框架,实现了数据与展示的分离,即相同的数据可以灵活展示到各种形式的报告中。系统框架分为前台UI、接口服务RestServer和数据适配DAOAdapter三部分。

制定标签标准是构建用户画像的核心,直接影响了用户画像的丰富程度和应用效果,因此,需要根据目的需求选择合适的算法,来制定或训练标签标准,最终通过专家经验或机器学习来形成关键特征标签的“画像”。如在图书馆阅读报告中需要根据借阅量的多少来对读者喜爱读书程度的维度打上标签,标签可分别为“书神”“书圣”“书霸”“书虫”“书僮”等级别。构建标签的算法多种多样,其算法大致有以下几种:

中台主要是接口服务RestServer,为前端提供restful接口。前端通过这些接口可获取需要的数据。在核心技术上运用Python tornado web,以适应异步网络库,非阻塞的网络I/O,用以满足大并发量的访问场景。同时,应用Python技术栈以做到通用、易用,便于维护。

就这样,五十多里山路,我他妈的竟然整整走了一天。有拉煤的车辆黑尘滚滚地过来过去,它们过来,熏了我一脸黑,过去,又熏了我一脸黑。我被熏得和天一样黑了,西山才真的和其他地方一样了。我实在支撑不住自己的身子,向一个前面不远的村庄摸索过去。

通过K-means可以实现根据借书量来聚类,如果需要更加细致,贴合实际使用,可使用基于加权的K-means。通过对数据采集和清理,在已经获得基本的用户数据,明确预期目标,即可对目标有用的信息进行权重划分,比如从读者借阅的索书号进行中图分类,提取出类别信息,赋予权重,从读者检索的OPAC检索词进行分词,去除常用词,再赋予权重。通过加权的K-means计算(如公式(2),可以实现不同学科领域的借阅量聚类分析,其中权重可以根据具体需求通过距离权重或者信息熵指标权重的两种方式来选择设置。

为保护用户信息安全,系统采用图书馆账号密码登录。系统会根据用户阅读行为特征提供专属画像形成报告。本文列举南航图书馆应用的个人阅读报告和学院报告生成的成功案例。

(1)个人阅读报告的展示以HTML5动画展示,活泼生动的动画界面加开馆音乐一下拉近了读者和图书馆的距离。文案以体现个人在图书馆一年活动为基础,以亲近柔和的语言展示了读者的借阅和进馆等数据。个人阅读报告主要有借阅量、进馆次数、进馆时间、借阅排名、最喜欢书籍和分类、最爱来馆时间等有趣的统计,并贴心地为读者分享提供了诸如“书霸”“书神”“书僮”等读者标签,以引起读者共鸣与分享。其画面展示之一如图3所示。

成人、青少年及18个月龄以上儿童,符合下列一项者即可诊断HIV感染:(1)HIV抗体筛查试验阳性和HIV补充试验阳性(抗体补充试验阳性或核酸定性检测阳性或核酸定量大于5 000拷贝/mL);(2)HIV分离试验阳性。

(2)学院阅读报告为粒度的数据统计和分析,本研究所开发的通用数据分析框架同样适用于以学院为粒度的报告生成。其数据获取并生成完整的院系报告过程:DAOAdapter根据DB配置和SQL模板,从各个DB查询所需的学院统计数据,并汇总填报到模板表格中,其流程如图4所示。

通过代码可实现数据分析,生成各维度学院报告,包括各个学院本科生、硕士研究生和博士研究生的各个年级和各个专业同学的借阅数据、进馆数据、电子资源访问数据等统计分析,以及学院间数据对比分析。完成以学院为粒度的数据统计和分析后,通过Word文档可编辑报表,以PDF形式展示,方便学科馆员使用,提高“学院-图书馆”互动频率,提升学校对图书馆的满意度。在此基础上通过与学院交流工作,可发掘出更多有价值的数据和分析点,比如学生成绩与阅读的关联,借阅量与馆藏建设的关系等,为图书馆读者服务水平提升提供数据支撑。

4 提升基于用户画像的高校图书馆阅读报告实施策略

对于图书馆来说,构建精准、全面、多维的用户画像体系通常面临数据过于垂直,覆盖不全面等问题。即使有一定的体量,数据分析和建模能力也可能存在着不足,由此在当前的图书馆阅读报告中,其展示的内容是以数据统计为主。从数据分析的宽度来讲阅读报告缺乏个性化的统计数据,从数据分析的深度来讲阅读报告缺乏深层次上的数据,因此,要进一步实现个人画像的精准、群体画像的细化、全馆画像的智慧,还需从以下几个方面入手考虑。

试验过程中,浸出剂亚氨基二乙酸的浓度是已知的,而相应的pH值可以根据试验要求进行调控。因此,在实际计算过程中,[Ida2-]T和[H+]可以认为是已知数,根据MATLAB软件可以得到[Ida2-]T和[H+]在一定范围内的其他未知数。计算过程中,假定[Ida2-]T在0~2.5 mol·L-1、pH在5~14区间。

4.1 加强数据管理,提供可信数据支持

数据作为一种新型生产要素,具有独特的自然与社会属性,对其进行有效管理是实现数据价值的主要节点。高校图书馆要保障基于数据价值发掘的“用户画像”系统安全运行,应不断加强用户数据、资源数据及系统数据的管理,提供可信数据支持,才能为机器学习、人工智能等提供“原料”,实现个性化支持、可视化呈现的线上服务。如在个人画像上精准数据,通过对服务、资源等数据的标签化建模,可精准地描绘出用户画像,并呈现于个人阅读报告中,才能既让读者了解到自己的阅读和行为偏好,又能拉近与读者距离,发掘潜在需求。

4.2 实现技术共享,提高数据利用效率

本研究开发的通用数据分析框架,可以实时对不同粒度数据进行分析生成相应的阅读报告。整个技术框架新颖、简单、高效、稳定,且可以充分利用校内的编程和开发资源,降低开发和维护成本,利于长期演进。在用户画像方面全面覆盖读者的属性、行为、兴趣、心理等各维度细分标签,能够帮助图书馆勾勒立体用户画像,深入洞察用户阅读行为,精准把握受众需求。在技术上,本系统的设计框架能够与其他图书馆实现技术共享,能较好地提高数据利用效率。此外,方便不同场景使用,支持手机移动端查看和word纸板报告下载。如在群体画像上可根据各学院的学科、研究内容,甚至按照阅读偏好等做好细化,通过对群体的数据分析,了解群体阅读行为特征和学习偏好,以此不断调整馆藏布局,优化阅读推广服务措施,提升图书馆服务水平。

4.3 拓展数据价值,实现智慧服务创新

当前电子商务领域的用户画像主要应用于个性化推荐、精准营销、精细化运营、辅助产品设计、用户分析等方面。图书馆可以借此“用户画像”技术拓展数据价值,改善阅读服务,逐步实现数字图书馆服务向智慧服务及智慧图书馆转型。如可借助基于用户画像的阅读报告来解决用户文献资源、空间服务等需求与图书馆服务内容匹配和不匹配、选择与不选择、喜欢与不喜欢之间的矛盾,根据用户行为特征和心理诉求,发掘高校教育深层需求

,实施智慧性的全馆画像,推动智慧化服务转型

。图书馆的数据可视化展示,不仅能够从微观角度优化具体业务,扬长避短,提高服务效率,同时能够从宏观角度提供图书馆的发展规划的决策参考。例如可基于各维度的用户数据进行画像生成报告,以发现馆藏分布不合理问题。可根据不同数据库覆盖院系人群进行聚类分析,做好精准消息推送和低效数据库决策支持。可根据课题检索方向、内容进行主题画像分析,对委托数据量多的人群采取资源倾斜提供策略,以此助力高校学科和相关知识库建设

5 结语

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》中多次提出“大数据”,相较于“十三五”规划的集中描述“实施国家大数据战略”,大数据从“新兴技术”逐步融入各行各业,成为各领域的“重要应用”

。高校图书馆拥有大量用户数据,如何挖掘和提炼数据价值,提高图书馆的服务效率,一直是图书馆关注热点之一。本文结合高校图书馆数据报告的实际情况,利用数据挖掘技术实现用户画像建模,设计了数据分析与展示分层的架构,构建阅读报告系统。通过南航图书馆的应用案例,本系统能充分满足图书馆统计报告的日常工作需求,实现用户数据与展示形式的多样化,缩短了报告生成的周期。通过本系统生成的个性化的阅读报告拉进了图书馆与读者的距离,特定群体聚类分析的阅读报告体现了高校图书馆在学科领域的重要性,为图书馆服务的智慧化转型提供决策参考。

[1]库珀.交互设计之路[M].北京:电子工业出版社,2006 .

[2]王灵萱.基于用户画像的图书馆联盟用户数据个性化服务分析[J].信息与电脑(理论版),2020,32(14):165-168.

[3]刘海鸥,李凯,何旭涛,等.面向信息茧房的用户画像多样化标签推荐[J].图书馆,2022(3):83-89.

[4]BISHOP J.BLAISE-LINE and the British National Bibliography: profiles of users and uses[J].Journal of Librarianship and Information Science,1985,17(2).

[5]都蓝.基于用户画像的高校图书馆年度阅读报告研究[J].图书馆杂志,2019,38(4):27-33,40.

[6]朱东妹.多源数据融合视角下的阅读推广用户画像构建研究[J].图书馆理论与实践,2021(6):99-105..

[7]王毅,吴睿青.公共图书馆数字文化资源服务用户画像研究[J].图书情报工作,2021,65(16):42-55.

[8]刘霞.从年度数据报告看我国“一流大学”图书馆的服务现状与趋势[J].大学图书馆学报,2020,38(3):89-96.

[9]谷诗卉,罗丽,杨新涯,等.大学图书馆年度大数据报告的调研与发展研究[J].大学图书馆学报,2017,35(6):24-30.

[10]龚晓婷,肖铮,周绍彬,等.图书馆营销品牌升级实施策略:以厦门大学图书馆“Library Go”为例[J].大学图书馆学报,2019,37(2):29-33.

[11]陈臣.基于小数据决策支持的图书馆读者个性化服务定制与动态推送系统研究[J].图书馆理论与实践,2022(2):79-84.

[12]徐春,张静,卞祖薇.我国高校图书馆年度大数据报告调查与分析:基于36所“双一流”建设高校图书馆的调研[J].图书馆研究,2021,51(3):40-49.

[13]宋美琦,陈烨,张瑞.用户画像研究述评[J].情报科学,2019,37(4):171-177.

[14]ELIZABETH K.Graduate student intellectual journeys:a functional method to identify library service gaps[J].Reference Services Review,2022,50(2):249-266.

[15]杨凡.澳洲八校集团成员图书馆基于慕课的嵌入式知识服务实践与启示[J].图书馆工作与研究,2022(4):51-56.

[16]黄金霞,赵展一,王昉,等.国际反思背景下我国科研群体OA认知画像研究[J].现代情报,2020,40(11):44-53.

[17]马赫,关心惠,沈思.图书情报学项目研究现状与热点:基于“十三五”时期国家社科基金年度与青年项目的分析[J].情报科学,2022,40(4):186-192.

猜你喜欢

画像标签报告
画像
画像
报告
让衣柜摆脱“杂乱无章”的标签
报告
科学家的标签
科学家的标签
报告
莫尼卡的画像
画像背后藏着活人