基于小数据的档案馆潜在用户信息推荐服务研究
2021-04-20徐维晨
徐维晨
一、文献回顾
1.档案潜在用户研究进展
国内对档案潜在用户的研究可分为以下两个方面,一是在概念界定方面。1994年,浙江省档案馆的李军将用户分为“现实用户”和“潜在用户”,他在文中提到“档案潜在用户是指只具有使用档案的需求,而没有到档案部门查找档案的用户”[1]。2011年李财富、杨静在《档案“潜在用户”转化》一文中指出“潜在用户的概念是相对于现实用户提出来的,是指在社会上的组织或者个人具有档案利用的需求,但是不知道如何利用档案,同时在事实上也没有与档案馆建立联系的一类群体”[2]。二是档案潜在用户转化方面。秦慧和陈妍希提出要注意挖掘档案用户的潜在需求,刺激其潜在需求,从而促使档案潜在用户转变为现实用户[3];王向女、袁倩探讨了在社交媒体平台上档案潜在用户挖掘的必要性[4]。在转化对策方面,郑典宜[5]、马英杰[6]、郑伽[7]、杨静[8]、邢变變[9]、冯妍[10]等都提到要借助网络技术将潜在用户转变为现实用户。
国外并没有具体的针对档案潜在用户的研究。“在西方发达国家,80%以上的档案用户是普通公众”[11]。在第十四届国际档案大会上,西方档案学者提出了“档案休闲利用服务”的观点,主张档案社会化服务,拓展了档案潜在用户的范围[12]。国外的档案服务研究,应用性、技术性很强,非常关注用户的体验,主张个性化服务。Kim hn关注档案服务中个性化用户的建模,根据用户兴趣提供相应的服务[13];Fernando ZT等人提出关注用户个性化数据,打造注重与用户交互和协作的存档网络平台[14]。
2.小数据研究进展
2014年美国康奈尔大学的德伯哈尔·艾斯汀教授是第一位提出“小数据”的研究者,她从年迈父亲的数字社会脉动的异常信号受到启发,认为个体行为的个体数据为总结个人行为模式规律提供可能[15]。目前,小数据应用范围十分广泛,如科研用户小数据融合研究[16]、借助小数据分析提升散客旅游者体验质量的研究[17]、通过小数据提供嵌入式的学科服务[18]等。
在图情档领域,小数据应用于用户服务的研究主要集中于图书馆领域。刁羽在分析小数据与图书馆智库型信息咨询服务契合性的基础上,构建基于小数据的高校图书馆智库型信息咨询服务模式体系结构[19];陈臣、马晓亭对小数据在读者画像价值进行了定量分析,建立了读者画像的个体化标签,构建了基于小数据的读者画像系统[20]。在档案领域,将小数据应用于用户服务的研究很少,知网检索有效文献只有五篇。吕元智在2016年时从小数据的概念入手,设计了基于小数据的数字档案资源知识集成服务系统框架[21];2018年李财富和余林夕提出将用户小数据用于精准化档案信息服务[22];2019上海大学图书情报档案系的古同日同学从技术条件和成本上质疑了小数据应用于档案信息资源开发利用服务[23]。
综上,档案领域针对潜在用户的研究大多数停留在理论层面,提出的相应对策太过宽泛,应用性较弱,实证色彩不足。在小数据领域的研究则更是少之又少,档案领域应该借鉴其相关领域的经验,加快推进小数据应用于档案服务。基于此,本文基于用户的小数据,探讨将其应用于档案馆潜在用户的信息推荐服务中,以期促进更多档案馆潜在用户转化为现实用户,扩大档案馆用户范围,提高档案利用效率。
二、档案馆潜在用户信息推荐服务现状分析
1.信息推荐内容无法吸引潜在用户
档案馆通常通过门户网站、微信、微博、短信等方式来进行档案信息推荐服务。在推荐的信息内容方面,档案馆所传播的信息内容多数是会议通知、政务信息、档案文化、档案技术、档案宣传活动等,形式多以文本和图片为主。以浦东档案馆的微信公众号“浦东档案为例”,在其平台上推送的文章分为“兰台动态”、“浦东家族”、“峥嵘70年”、“档案法规”、“闲话浦东”六个主题,在宣传档案工作、普及档案知识、传播档案文化等方面起到了很大作用,但是其阅读量较少。微博上的内容则是转发他人信息、工作动态居多,很难吸引潜在用户的关注。而国内的大部分档案馆网站设计比较粗糙,很少有精准的推送和定制服务,更为完善的个性化服务还在探索当中,有些档案馆网站虽然开通了更为贴近民生、吸引用户的民生档案信息服务板块,但也只是依据用户大数据,丰富民生档案信息种类和服务内容。国外的档案馆网站,如美国国家档案馆为了进一步刺激潜在用户的需求,开辟了更进一步的个性化服务板块,有针对教育的数字教室板块、针对退伍军人的退伍军人服役档案获取板块[24],虽然可以相对来说刺激档案馆潜在用户的需求,但也只是针对用户群进行细分,提供相对具有个性化的服务,还没有达到针对个人的多样化、精准化服务。
档案馆信息推荐的内容无法满足用户的多样化需求,无法更进一步的“唤醒”档案馆潜在用户,使其转变为现实用户是档案馆服务的一大短板。档案馆潜在用户小数据是用户的个体数据,是“能展现用户行为需求特征的各种数据的结合”[25],对这些数据进行采集分析,能够准确掌握用户需求,及时关注用户真正感兴趣的信息内容,及时推送给用户,有效吸引潜在用户转变为现实用户。
2.“等客来”被动服务理念亟须转变
目前,我国大多数档案馆还是处于一种“等客来”的状态,从整体上缺乏有深度、有内涵的开发及主动服务的姿态。虽然档案馆在信息推荐方面提供了多种渠道,但还需要用户主动去其服务平台上进行浏览点击,而不是主动的推送信息。在美国国家档案馆网站上提供了弹窗式服务,但其所推送的内容是订阅服务[26],也不是大部分用户所真正感兴趣的信息。“我国国家档案馆在公共文化服务方面依然实行的是被动式服务,在档案文化意识、服务理念方面都较保守。这种服务方式可以满足国家党政机关政治文化需求,但是忽视了对公众文化需求的调查和了解,无法建立起服务公众的有效反应机制。”[27]档案馆潜在用户群体数量庞大,“等客来”的被动式服务阻碍了档案馆潜在用户的转化,使得档案馆用户群体无法大规模形成,档案资源得不到有效利用。
2018年的“局馆分离”档案机构改革,理顺了档案局和档案馆的关系,档案馆的服务职能更加凸显。档案馆应该以此为契机提供更加主动的服务方式,利用用户小数据,分析用户需求,为用户量身打造属于个体的信息推送,以更为主动的服务方式唤醒档案馆潜在用户需求。
三、基于小数据的档案馆潜在用户信息推荐服务流程
小数据在图书馆领域应用较为成熟,针对潜在用户唤醒方面,图书馆也有更为具体的信息推荐服务方式,如由其打造的“国图公开课”平台,该平台面向公众提供国家图书馆的精品视频课程,为了优化该平台的使用效果,国图引入了个性化信息推荐服务,在其网站上专门打造了一个“推荐课程”板块[28],类似于淘宝的“猜你喜欢”。通过有效解析用户个性化信息行为,在用户没有明确意图的情况下根据用户偏好主动推送精准、高效的馆藏资源信息服务,使用户活跃量明显增加,让更多的潜在用户转化为现实用户。借鉴该领域的成功经验,档案馆主动为潜在用户推荐信息服务的流程可以分为小数据采集、小数据存储、小数据分析、信息推荐四个步骤。
1.小数据采集
“小数据”是指以个人为中心的全方位数据,包括数据被采集时对象实时的生活习惯、身体状况、社交、财务、喜好、情绪、行为等数据,通过分析个体的全部小数据资源可对外形成一个富有个人色彩的数据系统,来达到对个人特征、社会关系、需求和行为的精确分析与预测[29]。“国图公开课”平台采集了用户的三大数据,其一是基础数据,包括用户的性别、年龄、职业等;其二是读者用户行为数据,包括用户在其使用平台过程中的观看、分享、笔记等数据;最后是用户的场景数据,登陆的时间、地点、环境等数据[30]。鉴于此,档案馆在采集用户的数据时可分为潜在用户的身份特征数据、行为数据和社会化共享数据。
档案馆潜在用户是与现实用户相对而存在的,“某档案用户本来是档案馆标准的现实用户,后因为自身的档案信息需求总得不到满足,超过了自身的忍耐限度,慢慢丧失对档案机构的信心,逐渐转化为潜在用户。”[31]因此这部分人肯定会在档案馆留下身份特征数据和行为数据,身份特征数据包括用户的姓名、性别、职业、年龄等,这部分数据是相对静态的;用户的行为数据主要来源于服务监控设备、传感器网站等,包括用户登陆系统、选择检索路径、查询关键词、调卷、复制摘录等信息[32],还有用户在实体档案馆的查阅信息以及用户的反馈信息。还有一些行为数据来自利用需求处于待被唤醒状态时的档案馆潜在用户,他们虽然不太会有明确的意图去档案馆留下身份特征信息,但是会不自觉的浏览档案馆所发布的一些信息,产生一些行为数据。档案馆潜在用户的社会化共享数据来源于虚拟的网络平台,随着社交媒体的发展,大部分档案馆潜在用户都会选择社交媒体平台来了解档案信息,因此平台上会遗留下来用户登陆、社会化账号、历史检索痕迹、人机交互等数据[33]。从这些数据中都可以采集到反应用户需求的档案馆潜在用户的小数据。
2.小数据存储
“国图公开课”平台为了存储用户小数据打造了用户数据资源池。档案馆也应为采集到的用户小数据打造一个专门的数据库,潜在用户小数据的存储工作要包括以下几个方面:首先,要统一所存储的数据保存标准,对于不符合标准的小数据要及时完成转化工作,以便之后的分析利用工作的开展;其二,对于被采取的小数据,要注意保障其数据安全。因为小数据是用户的个人数据,其中还包括用户的身份特征数据,涉及用户的隐私问题,在存储过程中数据的安全问题尤为重要。为了避免个人信息泄露,数据库的进入要设置相关权限,对数据库进行加密保护;其三,为了保证所存储小数据的质量,方便日后分析使用,要对小数据进行初步的整理,去除用户小数据的噪音,保存真正有价值的潜在用户数据,使用技术手段对潜在用户小数据进行鉴定,剔除不必要的数据。在存储过程中,对用户小数据进行初步整理,存储真正有价值的小数据,同时对所存储的数据进行安全保护,增强潜在用户小数据的可利用性和安全性。
3.小数据分析
对潜在用户小数据进行分析是核心步骤,从小数据分析中提取用户真正的需求,关注用户的兴趣点,才能有针对性的提供信息推荐服务。小数据分析过程包括数据的挖掘、整合和优化[34]。可以利用数据挖掘技术、数据仓库技术等数据处理技术对小数据进行分析,如因为手机、电脑等移动终端的便利,大部分潜在用户主要通过档案馆的社交媒体平台来了解档案信息,表达其潜在需求,由此对数据的挖掘可以重点挖掘两个方面:一是用户所浏览过的页面内容信息,采用web文本挖掘技术,提取文本中潜在的、有价值的内容;二是挖掘用户的浏览行为,比如点击鼠标的次数等。通过数据挖掘,利用适配的算法发现用户小数据的规律,将提炼出来的有价值的小数据,按照所属的用户逐一整合,利用数据仓库技术,将统一用户的小数据集成于相关的数据结构中,从而了解用户的行为趋向。然后,对所整合的用户小数据进行优化,提升小数据的质量,确保最终小数据的准确性。还可以采用用户画像技术,通过标签映射法,从小数据中提取出用户的兴趣属性,形成标签,赋予到用户身上,以将用户兴趣特征化[35],最后建立属于用户个体的单用户画像库。
4.信息推荐方式
潜在用户小数据的采集、存储、分析都是为了最后的信息推荐服务工作的。首先,要将最后形成的用户数据库与信息资源相匹配,根据用户数据库所反映的用户兴趣点,提供一对一精准的档案信息服务。根据小数据分析结果,把握用户的兴趣点,丰富信息推荐内容,使其更能吸引潜在用户的关注,唤醒潜在用户的需求。其次,在信息推荐方式上应采取主动推送的方式,打破档案馆长期处于被动服务的局面。“国图公开课”平台上主动为用户打造了“推荐课程”板块,推送其可能感兴趣的课程。档案馆理应借鉴学习这种方式,比如在其档案网站上专门开辟一个用户可能利用的信息板块,主动为潜在用户推荐一些感兴趣的信息,还可以通过网页弹窗这种醒目的形式,主動推送信息,吸引潜在用户。
参考文献:
[1]李军.谈档案潜在用户的转化[J].浙江档案,1994(04):18-19.
[2]李财富,杨静.档案“潜在用户”转化[J].浙江档案,2011(09):32-34.
[3]秦慧,陈妍希.注意挖掘档案用户的潜在需求[J].兰台世界,2009(05):20-21.
[4]王向女,袁倩.社交媒体平台档案潜在用户挖掘的必要性探析[J].山西档案,2019(04):35-39.
[5][6]郑典宜,马英杰.高校档案潜在用户的利用需求解析[J].山西档案,2015(06):38-41.
[7]郑伽.长尾理论与档案潜在用户群体需求的对接[J].档案管理,2017(05):32-33.
[8]杨静.“互联网+”时代档案潜在用户转化的思考[J].档案学研究,2018(01):75-81.
[9][10]邢变变,冯妍.“互联网+”环境下档案用户转化策略研究[J].档案,2018(10):10-16.
[11][31]杨静. 档案潜在用户研究[D].安徽大学,2013.
[12]冯惠玲,安小米.第十四届国际档案大会的学术特点及主要议题[J].档案学通讯,2000(06):4-6.
[13]Kim, HN.User preference moeling from positive contents for personalized recommendation [J].Discovery Science, Proceedings, 2007(7):116.
[14]Fernando ZT, Marenzi I, Nejdl W. ArchiveWeb: collaboratively extending and exploring web archive collections—How would you like to work with your collections?[J]. International Journal on Digital Libraries, 2018,19(1):39-55.
[15]Estrin F D.Small Data, Where N=me [J].Communications of the ACM,2014,57(4):32-34
[16]李立睿,邓仲华.“互联网+”背景下科研用户的小数据融合研究[J].图书情报工作,2016,60(06):58-63.
[17]张丽萍.基于小数据背景的提升散客旅游者体验质量的研究[J].中外企业家,2015(31):95-96.
[18]孙丹霞,王伟军,姜毅.基于用户小数据的嵌入式学科服务研究[J].图书馆工作与研究,2019(04):84-90.
[19]刁羽.基于小数据的高校图书馆智库型信息咨询服务模式研究[J].图书馆工作与研究,2019(08):82-86.
[20]陈臣,马晓亭.基于小数据的图书馆用户精准画像研究[J].情报资料工作,2018(05):57-61.
[21]吕元智.基于小数据的数字档案资源知识集成服务研究[J].档案学通讯,2016(06):47-51.
[22][25]李财富,余林夕.基于档案用户小数据的精准化档案信息服务探析[J].档案与建设,2018(08):4-7.
[23]古同日.对小数据应用于档案信息资源开发利用中的思考[J].山东档案,2019(02):17-19+16.
[24]National Archives[EB/OL].[2021-02-02].https://www.archives.gov/.citizen—Archivist
[26]Citizen Archivist Dashboard [EB/OL].[2021-02-02].http://www.archives.gov/citizen-Archivist.
[27]黄雪志. “局馆合一”到“局馆分离”对国家档案馆公共文化服务的影响[C]. 中国档案学会.2019年全国青年档案学术论坛论文集.中国档案学会:中国档案学会,2019:195-199.
[28]国图公开课[EB/OL].[2021-02-02].http://open.nlc.cn/onlineedu/course/
explore/search.htm?filter=category&subjectId=0&categoryId=0&orderBy=recommend
[29]陈臣.基于小数据决策支持的图书馆个性化服务[J].图书与情报,2015(01):82-86.
[30]张华,魏大威.面向“国图公开课”的数字图书馆个性化信息推荐服务研究[J].图书馆学研究,2019(17):54-61.
[32][33][34]马双双.基于小数据的我国档案信息资源个性化服务研究[J].图书馆学研究,2018(04):86-91.
[35]许鹏程,毕强,张晗,牟冬梅.数据驱动下数字图书馆用户画像模型构建[J].图书情报工作,2019,63(03):30-37.
作者单位:上海大學图书情报档案系