APP下载

基于用户画像的综合档案馆精准化服务研究

2019-11-12张亚兵

山东档案 2019年5期
关键词:画像档案馆标签

文·张亚兵

国家档案局局长李明华2019年3月29日在全国档案局长馆长会议上明确要求“机构改革后,各级综合档案馆要进一步聚焦主责主业,突出五项基本功能,不断提高档案保管利用能力。在发挥档案利用服务中心功能方面,要通过档案资源共建共享、互联网在线服务等方式,使档案利用服务更加方便快捷、优质高效”。[1]目前,学界对综合档案馆精准化服务展开了一定研究。李财福、余林夕提出精准化档案信息服务是根据档案用户个体化档案信息需求的特点,贯彻“以人为本”的服务宗旨,建立起以档案用户个性化需求为导向并提供针对性和差异化服务的一种服务模式。[2]李广都、叶毅提出数据精准推荐,是通过系统软件分析将档案数据内容与用户需求进行正确匹配,建立正确的关联关系,再通过网络将相关数据主动推送给用户的服务方式。[3]金波、晏秦则认为档案精准化服务是以档案用户个性化需求为基础,以档案用户问题为导向而提供的服务,是一种以档案用户为中心的服务模式。[4]用户画像技术可以对用户数据进行分析,针对用户的需求开展精准化的服务。本文通过借鉴这一成熟的技术来探讨其在综合档案馆精准化服务中的应用并试图构建综合档案馆用户画像的模型框架。

一、用户画像应用于综合档案馆精准服务的必要性及可行性

用户画像又称用户角色,作为勾画目标用户、联系用户诉求与设计方向的有效工具,用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的,在大数据时代背景下,用户信息充斥在网络中,将用户的每个具体信息抽象成标签,利用这些标签将用户形象具体化,从而为用户提供有针对性的服务。[5]用户画像的概念是交互设计之父Alan Cooper 在1998年提出的,他认为用户画像是实际用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型。[6]曾建勋认为用户画像是指获取用户的专业背景、文化程度、知识获取习惯、兴趣偏好、特长任务等与用户需求趋向相关的信息,以此为基础进行模型化表示,为用户制定特定标签。[7]

(一)用户画像应用于综合档案馆精准服务的必要性

了解档案用户的档案信息需求,建立档案用户画像,能够为综合档案馆进行精准化推送和服务的制定奠定基础。首先,档案用户画像的构建是贯彻以“用户为中心”的理念,对档案用户信息利用行为进行虚拟化描述,即档案用户的虚拟代表。其次,对档案用户的查阅利用档案的行为进行记录,形成标签,大量档案用户标签的集合形成一个具有相同特征的档案用户群,为综合档案馆开展有针对性的档案利用活动提供了有效保障。最后,借助用户画像的数据,为档案工作提供指导性的方案、为综合档案馆的馆藏资源建设提供科学的依据。

(二)用户画像应用于综合档案馆精准服务的可行性

第一,档案机构改革背景下局馆分设的要求。综合档案馆长期以来,都处于被动服务的状态。这种状况主要是两方面造成的,首先,在“局馆合一”的体制下,影响档案行政管理机构和文化事业机构的职能区分、职责履行和责任追究,综合档案馆更倾向于行政职能;其次,“局馆合一”的体制下,存在着档案部门既当“运动员又当裁判员”“自己对自己执法”的现象[8],机构改革后“档案局馆分设”,综合档案馆文化事业机构的属性更加突出、明确,能够更好地履行公共文化服务的职能。主动服务要以档案用户为中心,深入分析档案用户的档案信息利用行为。用户画像技术就是根据用户的基本特征、利用行为等为用户贴标签,从而针对用户的需求为用户推送个性化和差异化的档案信息,达到精准化服务的目的。

第二,国内外成熟的技术应用经验。国内图书馆领域也逐渐运用这种技术,大大提高了图书馆的信息服务水平和能力。武汉大学[9]的数字图书馆社区推送服务组织以及天津图书馆的知识发现系统都应用了用户画像技术。其中,天津图书馆通过对ALEPH、微信、网站、一码通等系统中的数据进行关联,由注册数据分析出用户属性数据,由借阅数据、检索数据、阅览数据等分析出用户行为数据,用户属性数据和行为数据则共同构成了用户画像的主要数据来源。[10]英国国家档案馆(The National Archives,简称TNA)网站(htttp//www.nationalarchives.gov.uk)现有的网络档案信息检索系统名为“探索”。“探索”系统在建设时,通过访谈、日记研究、调查、网页日志等手段获取用户数据。通过聚类和分类分析构建出“探索”系统三类用户画像:漫步者、探索者、追踪者。三者之间没有绝对的界限,满足目标需求的同时兼顾其他用户群体的需求和体验。“探索”系统以“用户为中心”的思维应用用户画像技术将用户分类,精确地为不同用户优化其偏好检索方式。[11]这些国内外的实践为用户画像技术的应用提供了丰富的用户建模方法和应用案例。

二、综合档案馆用户画像构建

(一)档案用户画像数据的获取

用户数据分为静态数据和动态数据两个方面。其中静态数据是用户最基本的属性,例如年龄、性别、地域、职业、学历、专业等;动态数据是指用户获取信息时表现出来的行为,例如用户注册、点击、检索、浏览、下载、留言、咨询、评价等将会不断地、持续地发生变化的信息,即用户行为数据。

综合档案馆的用户数据主要包括:静态数据和动态数据。静态数据主要是档案用户的属性数据,包括档案用户的性别、年龄、专业、职业等信息。这些基本数据可以从档案部门利用档案的登记信息和数字档案馆的登录信息中获得。动态数据主要包括档案用户的行为数据。这一部分动态数据,可以根据数字档案馆的登录、档案馆网站、档案查询预约系统、微信App的浏览、互动等行为数据获得。其中,用户静态维度的数据是结构化的数据,相对比较好采集,便于形成用户标签。用户动态数据则是一些半结构化数据和非结构化的数据,例如档案馆网站页面的浏览、点击等用户行为数据主要储存在用户web日志中,需要通过网页爬虫和数据挖掘技术进行提取。综合档案馆在用户数据处理方面,面临的问题是如何将不同渠道获得的信息进行统一的整理。对于结构化数据系统一般可以直接导入,相对比较容易。但针对非结构化数据来说相对较难,为了降低成本,档案馆可以采取购买社会服务的方式,降低数据处理成本,选择专业的外包服务机构,以保障档案用户画像的构建。[12]

(二)综合档案馆用户画像的维度

用户画像核心的部分就是要对用户数据标签化,从不同的维度构建用户标签能够使用户画像更加具体、更加可靠。笔者认为综合档案馆的用户画像应该从用户特征维度、用户行为维度、用户兴趣维度3个方面刻画,构建三维标签体系的综合档案馆用户画像模型。第一,档案用户特征维度是对用户进行最基本的了解和刻画,主要是基于用户的人口统计学数据。综合档案馆通过调查问卷、用户查阅信息记录和数字档案馆注册信息中提取用户最基本的数据。第二,档案用户行为维度是指档案用户利用信息过程中的搜索、阅读、下载、评论等行为。第三,档案用户兴趣维度是用户画像的核心维度,它反映了档案用户的需求和兴趣,驱动着用户的档案利用行为。档案用户兴趣维度的构建主要是基于用户的行为数据,档案用户在与综合档案馆交互的过程中产生了大量的用户行为日志,这些数据能够真实的反映用户的需求和兴趣偏好。用户的兴趣属性由显性兴趣和隐性兴趣组成,显性兴趣时用户在系统注册时选择的兴趣主题和关注领域;隐性兴趣是用户在利用信息时不自觉对某个方面的信息关注、查看、评论产生的行为数据,这些反映了用户的使用逻辑和行为偏好。综合档案馆通过分析这些行为数据,能够使用户更快捷、方面的获得自己想要利用的档案资源。不仅提高了档案的利用效率,同时也提升了用户的利用体验。

(三)综合档案馆用户画像模型

综合档案馆用户画像的本质是将用户数据充分利用,将用户的需求用可视化的方式展现出来,应用于综合档案馆的服务中,实现精准服务。综合档案馆的用户画像模型构建大致分为三层,数据层、数据挖掘层、应用服务层。

数据层是构建综合档案馆用户画像的基础层,分为数据来源和数据采集。数据来源主要从档案馆网站、微信App、调查问卷、档案馆利用记录等获取;数据采集主要从这些数据来源的几个方面对用户的注册信息进行提取,通过问卷调查或者访谈等方式对用户的基础数据进行完善,再通过网页端和移动端的API接口记录用户交互数据以及挖掘Web日志,采集用户的原始数据,将这些原始数据序列化后存储到原始数据库中。由于用户的行为数据具有动态化的特点,需要建立一个有效的反馈评价机制,根据用户与档案馆数字资源平台交流的反馈信息,及时的对原始数据库中的数据进行更新与完善。最后,通过对采集到数据进行数据清洗、数据转换、数据规约、数据集成,为数据挖掘层进一步的分析做准备。

数据挖掘层是用户画像构建过程中最关键的一部分,数据挖掘层通过借助大数据工具Hadoop或Spark对数据库中的用户画像静态数据和动态数据进行挖掘,通过对用户数据的行为分析、聚类分析、关联分析来对用户有效信息数据进行语义化和短文本化标签,计算用户的兴趣权重,建立用户数据标签数据库以及用户标签体系,实现用户特征标签化。通过标签建模分析,可以进一步挖掘出用户个体特征和群体特征向量。相对于个体画像来说,群体用户画像注重于分析用户群体的相似度、例如用户群体的基本属性的相似度、用户之间关注的信息和服务评价相似度以及用户浏览、利用某方面资源的相似度等。合理区分目标用户群体,然后通过用户标签描述形成多个推送主题,提高个性化推送效率。

应用服务层是在数据层和数据挖掘层工作的基础上为综合档案馆用户提供主动性、场景性、实时性的个性化智慧服务。在发现用户需求偏好的基础上,迅速获取符合要求的信息资源,通过移动终端、门户网站等其他渠道,采用个性化的推送方式,满足用户对精准化服务的要求。同时,用户的信息需求是动态变化的,信息系统可以及时追踪、存储、分析用户的需求变化从而修正用户画像形成新的用户画像,进而为用户推荐对应的信息资源。本文构建的综合档案馆用户画像框架模型如下图1所示:

三、用户画像构建中应注意的问题

(一)档案用户画像颗粒度

数据颗粒度是属于商业智能(BI)中数据仓库里的相关概念,所谓商业智能是指将数据转换成信息的过程,然后通过发现将信息转化为知识,实质上即是通过应用基于事实的支持系统来辅助商业决策的制定,有利于商务管理的信息化管理。[13]构建档案用户画像需要考虑颗粒度,即画像的细化程度。颗粒度小的用户画像对用户描述很精细,有利于提高档案馆个性化服务的精准性。但是颗粒度越小意味着用户数据越细化,一方面会导致建模成本的增加;另一方面过于细致的颗粒度,会造成服务目标过于单一,降低用户画像的适用性。构建清晰并且适用性强的档案用户画像,需要根据综合档案馆的工作需要选择合适的颗粒度。

(二)保障用户画像的数据层

用户画像的基础是用户大数据,但国内图书馆依然对于小数据展现强烈的依赖。[14]相对于图书馆来说,综合档案馆与用户交互的数据更是匮乏。一方面,档案馆的资源具有原始性、保密性,不像图书馆的图书资源经过加工并且一般不会限制公众利用。另一方面,由于物联网和人工智能技术并没有全面应用到档案馆之中,没有形成物物相连、自主优化、用户中心的档案馆系统。依靠传统的用户数据收集方式不能满足大数据时代收集用户信息的要求,移动终端的发展为综合档案馆与用户的交互提供了机遇。综合档案馆应该开发适合于公众在移动终端查阅信息的方式,开发综合档案馆应用APP,方便公众随时随地的获取自己想要利用的档案资源,同时也能够方便综合档案馆对用户数据的获取和处理。

(三)档案用户隐私的保护和保密

在构建和应用综合档案馆用户画像的过程中,用户信息保护和保密是我们不能忽视的一个问题。用户画像是根据用户的各种信息构建而成的,在这个过程中不可避免地要搜集用户的个人信息。用户个人信息中有涉及到用户的个人隐私的部分,要注意用户隐私的保密和保护。用户隐私保密和保护的实现,可以从技术上和综合档案馆的相关条例和法规这两个方面着手。

技术上,从信息的采集、处理、加工、存储等环节加强用户信息保护。对采集到的数据采用数据脱敏与加密技术,防止用户信息被不法分子读取和识别。实施信息隐私等级划分制度。综合档案馆提供档案服务过程中采集了大量档案用户隐私信息,所以服务大众的档案工作,必须要做好对档案用户信息隐私权的保护,尽量减少档案用户损失。[15]

通过制定档案馆相关条例和法规,一方面,规范档案馆在授权范围内对档案用户隐私数据的使用,保障用户拥有对自己信息的自主控制权,最终在保障用户隐私的前提下,构建出有效的用户画像。另一方面,有利于帮助档案馆工作人员明确用户信息收集、储存、利用等各个环节的状况和对自身工作职责有明确的认识,防止在工作中的失误,更好地保护用户的信息。

猜你喜欢

画像档案馆标签
威猛的画像
太原市档案馆牵手百年胡氏荣茶共寻文化脉络
云南省档案馆馆藏《东巴经》
画像
无惧标签 Alfa Romeo Giulia 200HP
不害怕撕掉标签的人,都活出了真正的漂亮
画像
让衣柜摆脱“杂乱无章”的标签
科学家的标签
when与while档案馆