APP下载

基于用户画像的数字档案馆个性化服务研究

2021-11-26熊回香李昕然代沁泉华中师范大学信息管理学院

浙江档案 2021年7期
关键词:画像档案馆标签

熊回香 李昕然 代沁泉/华中师范大学信息管理学院

随着网络技术的迅猛发展,Web3.0在Web2.0的基础上以“个性、精准和智能”的核心理念成为新一代互联网的显著特征。在这样的发展潮流下,档案学界对数字档案馆的建设和发展赋予了新的内容和技术要求。一方面,数字档案资源已呈现出档案数据化的趋势;另一方面,档案用户面对海量异构的档案原始数据难以在短时间内高效获取有价值的信息,其个性化的需求得不到满足。集收集、保管、开发利用等管理过程于一体的数字档案馆的传统服务方式已难以适应新环境和新需求,迫切需要进行变革。近年来,用户画像作为一种数据分析模型,通过对用户的基本属性、行为记录和兴趣偏好等进行标签化,使用户信息高度凝练,进而挖掘出用户的需求特征,其已在电子商务、图书情报等不同领域得到具体实践,且效果良好,为个性化服务奠定了基础。本文将用户画像技术引入数字档案馆个性化服务,通过刻画用户全貌、分析用户特征,帮助数字档案馆深入落实以用户需求为导向的个性化服务,进而提高数字档案馆服务效率,使数字档案资源价值得以最大化。

1 研究评述

用户画像作为大数据环境下分析用户信息的模型,最早由Alan Cooper提出,它被定义为“表示真实用户的虚拟代表”[1],目前国内外学者聚焦于用户画像的内涵、模型构建和具体应用等方面。本文认为用户画像是对用户的基本信息、个性需求及兴趣偏好等数据进行标签化,通过抽象出的标签信息构建模型来刻画用户全貌,强调用户的主体地位,有效地将用户需求与服务方向相联系,为个性化服务打下基础;个性化服务作为一种新型信息服务方式,根据用户的需求和特征,主动提供相应服务,更具有针对性。在大数据渗透于社会各领域的背景下,个性化服务有效地为用户解决了信息过载和信息迷航的问题[2];数字档案馆作为提供服务的主体,是存储和利用档案信息资源的知识空间,涉及馆藏、网络、数据库等档案资源。档案信息资源的快速增多、用户个性化需求的不断增长、新兴技术的尚未深入应用,使得数字档案馆难以应对大数据时代的强大数据压力[3]。

针对数字档案馆面临的挑战,国内学者张开森最先在数字档案馆中引入个性化服务,以期提升服务质量,促进其在互联网中的生存和发展[4];继而王斌、王林等探讨了数字档案馆提供信息分类定制、信息推送、信息智能代理、呼叫中心等个性化的服务模式[5][6]。由此可见,数字档案馆个性化服务依然以馆藏为主,通过发挥馆藏优势来满足用户需求。但是,要想为用户提供高质量的个性化服务,前提是要全面了解用户,用户画像的应用是刻画用户全貌、联系用户与服务的有效桥梁。阳晓萍等认为用户建模技术是个性化服务的基础和核心[7];陈媛等以数字图书馆为研究对象,提出建立个性化服务用户模型构架来获取用户隐性兴趣[8]。因此,用户画像和个性化服务相结合,将进一步提高个性化服务的针对性、精准性与高效性。纵观档案领域,目前关于用户画像的研究相对较少,但已受到相关学者的关注。国外学者Kim HN阐述了用户画像在档案馆知识服务中的作用,通过个性化的用户建模来推荐与用户兴趣相关的内容[9];国内周林兴等学者分析了档案馆应用用户画像的需求,以此构建基于用户画像的档案知识个性化推荐流程[10]。可是具体到用户画像在数字档案馆个性化服务中的应用,国内外的相关研究匮乏,档案界应积极借鉴相关领域的经验,加快推进用户画像的应用,以提高数字档案馆个性化服务的质量。

2 当前我国数字档案馆个性化服务的现状分析

随着档案数字化工作的转型,我国各级各类数字档案馆以自身馆藏为基础提供着不同程度的个性化服务,通过对我国31个省份的档案信息网站和档案馆官网进行访问浏览发现,我国数字档案馆基本上能提供面向公众交流、展览、学习的个性化服务,但在内容质量、服务效果、用户参与度等方面依然存在着不足。

2.1 服务内容以馆藏为主,个性化服务针对性不强

目前我国绝大多数档案馆都拥有自己的门户网站,比如青岛、内蒙古数字档案馆建设有自己的官网;北京、长沙、江西数字档案馆作为档案信息网站的一个栏目,不断推进馆藏资源数字化。从馆藏内容来看,我国数字档案馆大多以政务信息、历史档案、档案文化等为主,而互动交流、预约查档、利用效果等服务功能较少或者服务滞后,用户的档案问题得不到及时解决。事实上,当前我国大多数数字档案馆所提供的档案服务并没有突破传统档案服务的思维束缚,在具体实践中更多的是利用互联网技术和数字化设备将一些事先设计好的服务推送给用户,并不能及时根据用户的利用“场景”来调整优化服务[11],针对性不强,因此不能很好地根据用户的特点和需求来“定制”服务。

2.2 馆藏资源缺乏融合,知识性的个性化服务需加强

数字档案馆的馆藏资源反映了本地区、本单位的发展面貌、记忆沉淀与未来展望,突出了很强的地方特色,但是这样的馆藏建设使档案资源面临地域化、零散化、丰裕度不高、关联性不强等问题。即使网站内设置了友情链接功能,但是链接的结果依然是各个档案馆的独立资源,质量参差不齐,虽然节省了检索时间,却没能从本质上提高数字档案资源的服务效果。智能化时代,用户更关注自己需求的满足,渴望得到个性化、泛在化、快捷智能的知识服务[12]。因此,社会环境的变化和用户动态化需求对数字档案馆服务提出了新的技术要求,档案资源要实现分布式存储与融合,用户通过统一的检索入口可以实现跨馆检索,得到的检索结果经过去重、排序、整合等操作后以可视化的形式呈现给用户。

2.3 用户数据较难采集,个性化服务生态环境脆弱

随着互联网的深入发展,政府信息越来越公开透明,而我国档案工作依然具有较强的政务性与机密性,所以相对于图书馆、电子商务等其他信息服务领域,我国数字档案馆服务受众面比较局限,用户群体规模相对较小,社会参与度和影响度不高,整个服务生态环境较为脆弱。通过访问各个档案馆网站可以了解到,大多数数字档案馆首页缺少对用户相关数据的采集,比如用户首登网站的注册信息、访问相关内容记录、浏览网站停留时间等,对用户行为的研究存在较大困难,个性化服务生态环境中“人”的必要因素欠缺。尽管大部分网站设置有公众参与、互动交流、利用效果等版块,但是用户参与量较少、活跃度不高,提供服务的时间滞后,用户的档案问题不能得到及时解决,用户的利用反馈没有得到充分重视,用户提出的问题不能得到及时解决,服务效率亟待提高。

3 基于用户画像的数字档案馆个性化服务模型构建

3.1 数据获取层

档案用户是数字档案馆提供个性化服务的核心对象,因此对用户数据的采集是整个服务模型的基础。当前,我国数字档案馆在一定程度上形成了固定的档案用户社群,其中包括政府机关工作人员、企业员工、专家学者、高校师生、社会公众,并且公众的规模在逐渐扩大。通过网络爬虫等采集工具从数字档案馆及相应的社交媒体采集用户信息,然后对档案用户数据进行识别分类与分布式交换,最后利用区块链技术加密用户数据,保障用户的隐私安全。

数字档案馆的用户数据可以分为结构化、半结构化和非结构化数据,其中结构化数据是关于用户的自然属性数据,是指相对稳定或静态的人口属性,主要包括用户的性别、年龄、职业、学历、职称、工作单位等,可以通过用户的注册信息获得,便于采集,容易形成用户标签。而半结构化数据和非结构化数据属于用户行为数据,是用户画像构建的核心数据,量大类多,本文将其划为社交属性数据、兴趣属性数据和能力属性数据。社交属性数据主要包括用户的活跃度和相关用户的联系,从而反映出用户的社交影响力。用户的活跃度来自用户页面点击、浏览、下载、转发等行为数据,通过用户关注的网站数、提问及回答的数量、用户之间进行的交流合作等行为来建立联系。兴趣属性数据体现了用户在档案领域的某种行为偏好与特征,通过数据挖掘技术对用户标识、用户接触点、用户行为数据进行采集。能力属性数据是用户对档案资源完成一次检索查阅或应用的研究领域体现其综合素质的数据,包括用户使用的检索工具类型、采取的检索方式、检索结果的展示。基于此,数字档案馆系统可通过嵌入用户页面行为的监控插件,在不影响用户正常使用的前提下收集用户不同属性的数据[13],使用户面貌刻画得更加完整全面。

3.2 画像构建层

3.2.1 用户数据标签化

用户画像模型构建的本质是对采集到的用户数据进行标签化。标签化是借助简短的语言来描述用户的各项特征,通过标注的过程对档案用户进行聚类,从而使用户画像清晰化、规范化和精准化。首先,对用户数据进行统计分析,得到用户画像的静态标签。用户的自然属性属于静态标签,具有一定的稳定性、客观性和事实性,这一类标签可以通过档案用户的注册信息获得,如性别标签、身份标签、地域标签、学习领域标签等。其次,通过机器学习等智能分析技术挖掘用户特征、分析用户行为、构建用户关联,得到用户画像的动态标签,根据用户在互动交流区、查档咨询区、用档效果区等公共领域的留言评论提取用户的兴趣特征、社交关系、情感趋向等信息并赋予标签,将用户的特征清晰地表达出来,明确用户需求。另外,在赋予标签的过程中需要对标签进行预处理,经过标签清洗、词汇标准化、低频词过滤等处理步骤,用户数据就转换成了基于词的特征项的集合,便于计算机进行识别与操作[14]。

3.2.2 用户画像模型的更新

数字档案馆是一个开放与共享的系统,馆藏资源的结构层次越来越多元,内容越来越丰富,接受服务的档案用户范围越来越广,规模也越来越大。换言之,用户标签是不断变化的,因此用户画像的构建也应该及时响应数据的变化并做出相应调整,根据新增的用户数据对画像模型进行动态更新,以提高准确性。与此同时,用户画像的构建与更新离不开算法与模型的技术支持,首先可以通过数学模型度量档案用户各方面的属性特征,如利用知识相似计算、邻居相似度计算、路径相似度计算等精确刻画用户特征;其次可以借助数学模型如一次指数平滑模型并结合深度学习序列模型,挖掘档案用户行为之间的依赖关系、预测档案用户兴趣的变化,实现用户画像模型的实时更新。

3.3 资源匹配层

数字档案馆要想为用户提供精准服务,用户需求和档案资源的深度匹配至关重要。一方面,用户画像全面刻画了用户面貌,将用户的属性、行为和期待等每一个信息抽象成标签,利用这些标签再把用户特征具体化,使用户的档案需求得以清晰表达,使相似用户得以关联,并为个体用户寻找相似用户,得到用户—用户的关联。另一方面,海量的档案资源包括网页、图片、视频等社交媒体文件,需要进行颗粒度细化处理,所谓数据颗粒度是数据仓库中的相关概念,通过发现将信息转化为知识,实质上是通过应用基于事实的支持系统来辅助科学决策的制定,有利于资源的信息化[15]。因此,为了有效揭示和利用细颗粒度档案资源,需要对馆藏资源进行标识,完成资源—资源的关联,以便快速定位到用户所需要的档案。对档案用户与档案资源进行相似度计算,实现资源—用户的关联匹配,为个性化服务提供有力支撑。

3.4 智慧服务层

建设数字档案馆的最终目的是为用户提供主动性、及时性、知识性、智能性的个性化服务,智慧服务层直接面向档案用户,其体验感受和利用反馈的好坏直接影响着整个数字档案馆系统的建设效果。首先,用户画像提供了丰富的用户标签,不仅可以精准捕获档案用户在特定情境下的特定需求,还可以有效预测档案用户在较长时间内的兴趣偏好,所以个性化推送、知识性定制、智能化问答等服务可显著提高数字档案馆服务质量。其次,用户的访问界面更具情境化,且美观智能。智慧导航是用户浏览阅读档案资源的指引,引导档案用户快速地查阅到所需信息,节省用户检索时间,大大提高了检索效率。另外,数字档案馆系统提供的检索方式也影响着档案用户的检索行为,智慧检索作为数字档案馆海量资源的检索入口,根据用户输入的主题词和用户画像标签,结合基于协同规则的过滤,预测该用户所需要的档案资源,将主题最相关、最符合用户需要的档案资源按降序排列呈现。最后,数字档案馆的个性化门户终端将充分利用各种社交媒体平台和人工智能技术,针对不同层次的用户群体开展档案文化展览、档案知识宣传以及档案情境体验等服务,以更好地满足用户全方位、多角度、深层次的个性化需求。

4 基于用户画像的数字档案馆个性化服务策略

4.1基于用户画像提供档案资源推荐服务

档案资源推荐服务是根据用户在解决档案问题过程中的切实需求,利用获取的用户数据和标签体系,并结合对用户个人兴趣偏好的分析,主动地向用户推荐其所需的档案资源的行为,充分体现了数字档案馆服务的“智慧化”和“个性化”。在这一过程中需要个性化推荐系统的技术支撑,目前普遍应用的推荐技术有基于内容的推荐技术、基于关联规则的推荐技术和协同过滤推荐技术,其核心部分就是利用推荐算法,快速定位并找到用户可能感兴趣的信息资源并及时推送[16]。首先,根据采集到的用户数据提取标签,得到实时的个体用户画像,再根据实时的个体用户画像中的用户标签向用户推荐相匹配的档案资源或者将实时的个体用户画像与已建立的用户画像库进行匹配,找到相似用户,将相似用户阅览的档案资源推荐给用户。用户使用档案后返回利用反馈界面,如果其档案需求得到满足,则此次资源推荐成功,并将目标用户的标签添加到用户画像库之中,否则此次资源推荐失败,以后不再推荐此类档案信息。由此可见,用户的利用反馈信息可以倒逼数字档案馆进行馆藏资源建设,使内容更加丰富、层次更加多元、结构更加完整。

4.2 基于用户画像提供数字档案知识服务

大数据时代,一方面档案资源呈现出大数据的异构、分散、增长速度快、价值密度低等特点,另一方面档案用户更加关注自身档案问题的解决,档案信息需要进一步加工处理为档案知识来满足其需求,因此数字档案馆实现个性化的知识服务至关重要,其中知识融合是关键一步。知识融合面向需求和创新,对众多分散资源、异构资源中的知识进行获取、匹配、集成等处理,挖掘有价值的新知识,同时优化知识的结构和内涵,进而提供知识服务[17]。基于此,根据用户画像灵敏地洞察知识需求的对象、领域和层次,得到用户精准的档案知识需求,数字档案馆的知识服务便是从档案知识中按照用户需求有针对性地进一步提炼、融合所需知识,提供给用户,帮助用户解决其实际问题。将用户画像技术嵌入数字档案馆服务,也有利于知识向智慧转化,把已有的馆藏和能够调动的资源进行融合,来指导用户进行档案实践。面向用户的多元化、差异性的需求,鼓励数字档案馆和其他信息机构进行跨界融合,深度挖掘隐性知识、整合碎片化知识,使不同机构的档案知识自由流动并实时共享,实现档案知识的创新增值。

4.3 基于用户画像提供档案用户匹配服务

数字档案馆的服务本质是满足用户需求。目前,信息技术的广泛应用为档案领域带来了巨大的发展前景,利用者从原先有特定查档需求的个体扩大至海量用户群体[18]。在此背景下,用户画像的应用有助于数字档案馆实时采集数据、分析用户特征,为用户提供匹配服务,使其能获得满足自身需要的档案资源。从当前档案用户来看,可将其划分为活跃用户、激活用户和潜在用户,活跃用户是利用档案比较频繁并且对档案资源的开发利用有促进作用的群体,其中大多为学者专家、高校师生、档案工作者等专业人士;激活用户是对档案资源有需求,但限于自身检索能力或所从事的工作,不能很好获得档案资源的群体;潜在用户是当前没有但未来可能会有档案需求的群体,包含广大的社会公众。用户画像的数据主要来自活跃用户,他们不仅是个性化服务的享有者,更是用户画像标签库的创建者,在这过程中用户交互不断加强。随着个性化服务的发展以及用户画像标签体系的丰富,活跃用户也将以自己的实际利用体验影响并激活更多的用户来选择数字档案馆作为自己获取资源的渠道之一。在用户和资源精准匹配的良好循环中,激活用户和潜在用户也将不断发展为活跃用户,从而形成庞大的档案用户社群。加强用户之间的交流学习,最大限度满足用户需求,这将进一步提高数字档案馆的社会影响力,发挥档案应有的社会价值。

猜你喜欢

画像档案馆标签
威猛的画像
画像
关于智慧档案馆与数字档案馆的关系探讨
不害怕撕掉标签的人,都活出了真正的漂亮
画像
让衣柜摆脱“杂乱无章”的标签
科学家的标签
科学家的标签
when与while档案馆
潜行与画像