基于零数据理论的综合档案馆档案信息服务路径构建
2021-01-14戴艳清孙英姿
戴艳清 孙英姿
摘要:零数据应用于综合档案馆档案信息服务能够优化档案馆业务系统及资源建设、激发用户潜在需求、创新档案服务内容。采用系统分析法,探讨综合档案馆档案信息服务中的主体、客体、内容三个维度的零数据及其适用性,从零数据采集存储、处理分析、反馈利用三个层面构建综合档案馆档案信息服务路径,以期有效利用这些长期被忽视的、较稳定的数据信息,提升综合档案馆的档案信息服务水平。
关键词:零数据 综合档案馆 档案信息服务
Abstract: The application of zero data in the ar? chives information service of comprehensive ar? chives can optimize the business system and re? source construction of archives, stimulate the poten? tial needs of users, and innovate the contents of ar? chives service. System analysis method was used to discusses the zero data and its applicability in the three dimensions of subject, object and content in the archives information service of the comprehen? sive archives,and the service path of archives infor? mation is constructed from three levels of zero data collection and storage, processing and analysis, and feedback and utilization, which is in order to make effective use of these long-neglected, relatively sta? ble data information, enhance the archival informa? tion service level.
Keywords: Zero data; Comprehensive archives; Archival information service
隨着信息技术的飞速发展,各行各业在生产管理、服务利用等过程中涌现出大量的数据,这些数据通过加工和再利用,正显现出巨大的经济效益和社会价值。当前,在档案服务领域大数据的应用与研究已成为时代潮流,亦有少数学者从获取、分析、挖掘个性化的档案小数据及其行为模式规律出发,为综合档案馆档案信息服务提供智能化、精准化、个性化的服务,如吕元智基于小数据研究数字档案资源知识集成服务[1];刘芮、谭必勇在小数据思维下探析综合档案馆档案信息资源精准化服务路径[2];马双双基于小数据研究档案信息资源个性化服务[3]等。但在数据的管理与分析中,关注和研究较多的是已经产生的显性数据,譬如档案馆藏数据、利用者需求数据、档案服务痕迹数据等,而还有许多数据,譬如档案馆的海量潜在用户、零借阅或零利用的档案资源、零知晓的档案服务、零点击量的档案网站等数据,则由于其非显性特征而处于“被忽视”的境地,这一部分特殊数据统称为零数据。基于零数据理论构建综合档案馆档案信息服务路径能够挖掘综合档案馆的潜在用户以及用户潜在需求,合理配置和集成馆藏档案资源,创新档案馆服务模式,提高馆藏档案的利用价值,优化综合档案馆档案信息服务。
(一)零数据理论
零数据在学界讨论较少,尚未有明确的定义。国内外学者主要从以下角度出发探讨零数据:从数量特征界定为数量为零的数据。雨果·拉罗彻尔(Larochelle·Hugo)等人在零数据学习中将其定义为“没有可用的数据”[4];薛雁丹等人在Oracle数据库保护中提到“零数据丢失”为“无任何数据丢失”[5]。从形容词属性界定为数目接近为0的数据。雷顺利[6]、王静芬[7]、赵文芳[8]等人从“零借阅”角度进行高校图书馆图书借阅率的分析与馆藏优化。
零数据理论在图情档领域的正式提出见于2019年,是由国内学者王彦力等提出并探讨其在图书馆中的应用的。其定义为“系统中被忽视和没有达到设计要求的数据,或数据生成过程中所收集或积累的数据集中值为0的数据”[9]。此外,杨新涯等学者提出图书馆在阅读推广工作中建立相关零数据的收集、分类与智能分析决策体系以完善智慧图书馆数据体系、管理与服务[10];刘芳兵、王彦力等学者提出建立以零数据为基础和指导的优化馆藏体系[11];许天才等学者提出零数据破除信息茧房的策略[12]。当前零数据理论在国内更多地应用于图书馆馆藏建设与服务中,档案馆领域则零数据理论的研究鲜少,仅部分学者如王向女[13]、杨静[14]等人从档案信息服务过程中的潜在用户(即用户零数据)角度展开潜在用户转化为现实用户的研究。为明确研究对象,本研究将“零数据”定义为在档案全生命周期管理后端(即档案的共享与再利用)过程中产生并存在但未被利用的数据,并将其应用于综合档案馆档案信息服务路径的构建中。
(二)大数据、小数据与零数据关系
大数据、小数据、零数据之间的区别主要在于:第一,数据的资源基础与挖掘对象不同。大数据是以海量、复杂、多结构数据为资源基础,进行即时获取、精确分析、深度挖掘以探索事物发展的普遍规律;小数据是以个体、少量、个性化数据为资源基础,在不同的时期、从不同的角度、全天候、全方位对数据进行收集分析、深度挖掘、精确利用[15],关注揭示个性化规律;零数据是以采集系统中未被利用,或是设定标准差异极大的数据为资源基础,对“沉睡的数据”进行挖掘和分析,揭示事物发展中未被发现的规律。第二,应用于服务方向与方式不同。大数据是通过对一系列复杂、零乱的数据进行智能抓取、关键词抽取以准确发现用户的行为习惯、喜好和需求,来监测海量用户需求变化情况,为用户提供高效、满意的个性化大数据信息服务;小数据是通过系统采集、噪音过滤、处理优化等流程根据特定问题搜集数据,精准分析用户的需求,为用户提供个性化和精准化的服务;零数据是对系统中的零数据进行挖掘分析,通过分析潜在用户及用户潜在需求、未被利用的档案资源产生的原因等,来挖掘潜在用户,发挥档案的潜在价值。
大数据、小数据以及零数据之间的联系主要在于以下几点。第一,三者之间相辅相成,相互融合。三者相互作用为现有用户提供符合用户需求个性化、精准化的服务,同时挖掘潜在用户和用户的潜在需求,推进档案信息服务多样化。第二,三者之间互为补充。大数据基于海量的数据进行快速收集、聚合并加以分析应用,对事物发展大体走向给予初步判断,得到普适性的结论,但无法在一些特定环境下做出合理的预测;小数据弥补了大数据这一不足,搜集时更为灵活,根据实际需要有针对性地收集,能够深度挖掘数据信息中的因果关系,得到准确性的结论;但大数据和小数据都是基于显性数据基础上的挖掘和分析,缺乏对未被使用或挖掘、利用前就已经被系统清洗或淘汰的数据的探索,零数据则是基于此来补充分析未被发现或是忽视的潜在规律。
信息技术的持续更迭换代为综合档案馆档案信息服务中复杂、多结构的数据智能抓取、挖掘分析提供了技术手段支持。零数据作为复杂、多结构数据中的一种特殊数据,对综合档案馆档案信息服务具有重要价值,主要体现在以下3个方面。
(一)优化档案馆业务系统及资源建设
对馆内业务系统以及资源建设进行优化。对业务管理和系统运行中的零数据情况进行监测分析,如综合档案馆总访问量或是某馆访问量突然为零,分析零数据产生的具体原因、系统故障、管理问题等,以及时调整业务管理或系统运行中的漏洞;通过挖掘、编研等手段改变因档案的时效性与利用不便等使得馆藏档案资源处于“零利用”或利用率低的状态,以利用需求为导向,对档案资源结构进行动态调整,丰富和完善馆藏资源,如浙江省档案馆2014年首次接收社区建设、家庭生活等主题的11户家庭档案[16],形成多元化的档案资源体系,降低馆藏档案资源利用的“零数据”。
(二)激发用户潜在需求
零数据可用于分析综合档案馆的“潜在用户”和随机浏览但非档案实际利用者的“沉睡用户”,将其转化为利用档案“活跃用户”,增加综合档案馆的受众量。构建零数据智能分析信息系统,挖掘“沉睡用户”在随机浏览中产生的行为轨迹,分析用户的实际需求,开展个性化推荐服务,使其浏览行为变为实际的利用行为,激活“沉睡用户”,如重庆大学给从未到过图书馆的读者发送了一封电子邮件,邮件发出后起到一定效果,不少读者成功从零数据中消除。[17]及时、准确地定期将档案信息资源推送给“潜在用户”使此部分用户对档案信息资源有常态化了解,吸引“潜在用户”的兴趣,将“潜在用户”转化为“现实用户”,降低或者消除“潜在用户”。
(三)创新档案服务内容
零数据应用于对档案服务内容的创新,能够改变馆内服务内容单一和服务内容形同虚设的局面。档案服务过程中产生了用户参与量、用户活动轨迹、用户评价与反馈等零数据。基于用户参与量零数据,判断此类群体对服务内容的需求,推送提供高质量、有针对性的服务内容,能够增加用户参与量;基于用户活动轨迹的零数据,分析用户“不感冒”的深层次原因和习惯偏好,采取灵活多樣的服务形式提供多元化服务内容,如青岛档案馆运用3D虚拟技术在“青岛:1945年日军投降仪式的台前幕后”专题展览中介绍了接受日军投降的历史[18],多样化的技术手段使原始的档案得到直观展示,充分发挥了档案价值;基于用户评价与反馈的零数据,了解用户对档案信息服务形式与内容的“好差评”,创新综合档案馆档案信息服务形式,丰富档案信息服务内容。
档案信息服务模式是在服务策略的影响下,由服务主体、服务客体和服务内容三种要素构成的服务活动,三者相互渗透、缺一不可。[19]零数据作为产生并存在但未被利用的数据存在综合档案馆档案信息服务的全过程中,因此,在信息技术广泛应用的背景下,应把握和利用综合档案馆档案信息服务的服务主体、服务客体和服务内容产生的零数据情况并进行适用性分析,将其融入并应用于档案信息服务路径构建,优化综合档案馆档案信息服务。
(一)服务主体的零数据
本文所指档案的服务主体即综合档案馆,主要体现为综合档案馆的“零访问”和馆藏档案资源的“零利用”数据。综合档案馆的“零访问”数据是指综合档案馆内某段时间访问量为零或者某分馆或专题展览馆长时间“零访问”的数据。馆藏档案资源的“零利用”数据是指馆藏档案未被利用或者是馆藏档案被利用一次后长时间内未被利用的数据。
零数据应用于服务主体,可进行其零数据产生原因的深层次分析,如因其内部访问系统故障,或档案馆内某分馆及专题展览馆选题面向的群体局限、内容陈旧、展现形式单一、新馆宣传力度不足而产生“零访问”数据,又或因档案资源本身缺乏时效性等导致产生“零利用”数据等。因此,需要利用服务主体零数据,用于关注档案系统的维护、档案馆用户的包容性、档案展览内容的新颖性以及档案资源的时效性等方面的问题,以扩大综合档案馆访问量和提高馆藏档案资源利用率。
(二)服务客体的零数据
档案的服务客体即档案用户,服务客体的零数据主要体现为“潜在用户”以及“沉睡用户”数据。“潜在用户”数据是指从未利用过档案或从未踏入过综合档案馆的用户数据。“沉睡用户”零数据是指对档案资源利用次数或踏入综合档案馆次数接近为0、某一段时间内密集踏入综合档案馆后长时间未踏入的“沉睡者”数据。
零数据应用于服务客体,可对综合档案馆档案信息服务潜在用户进行重点挖掘以及对沉睡用户进行重点激活。通过分析“潜在用户”以及“沉睡用户”产生的原因,如潜在用户对综合档案馆信息服务缺乏需求,受限于地域、时间、利用方式等因素对档案利用不便捷,沉睡用户对档案的需求降低、用户黏度以及用户体验不足等,以此分析用户的实际需求,提高用户黏度,注重用户体验,可降低服务客体的零数据,增加综合档案馆档案信息服务的用户量。
(三)服务内容的零数据
档案服务内容的零数据主要体现为综合档案馆部分服务内容“零提供”和“零受众”。服务内容“零提供”数据是指缺乏部分服务内容,如档案教育培训服务、档案休闲娱乐服务、档案创意产品服务等。服务内容“零受众”数据主要指部分档案服务几乎无受众或受众面较少的情况。
零数据应用于分析当前综合档案馆部分服务内容“零提供”和“零受众”的原因,具体表现在以下几个方面。一是综合档案馆“大多只被动提供档案查询与咨询服务,坐等用户上门求索”[20],导致馆内档案信息服务某项或某类服务内容的“零提供”;二是部分村级档案馆由于功能残缺,尚未提供开放利用服务,同时缺乏数字化条件[21],导致面向乡村或其他特殊群体的“零受众”;三是档案文化信息资源更新不及时、部分档案服务设置形同虚设、用户参与程度不够等原因而导致面向大众群体的“零受众”现象等。针对以上现象,应采取积极主动服务,促进档案馆功能完善,更新资源,改善当前服务内容零数据的现象。
本研究结合前文分析,并基于信息服务的基本流程构建综合档案馆档案信息服务路径,以此消除或减少档案信息服务中的零数据,促进档案资源的有效利用,如图1所示。
(一)零数据采集存储,真实可用
零数据采集存储层主要包括对零数据的采集、预处理和存储三个阶段,以保证数据的真实可用。首先,依托数据监测与数据挖掘技术,构建零数据采集系统,对综合档案馆档案信息服务全过程中的零数据进行采集,并按照档案信息服务的三要素即服务主体、服务客体、服务内容进行分类。零数据的采集范围主要集中在信息系统中未产生数据的部分,与设定标准差异极大且数值极小的数据也纳入采集范围。[22]在零数据的采集过程中,要保证标准规范,采集对象要全面准确,显示为零的数据皆为零数据采集对象,譬如参与用户、访问、借阅、下载、评价与反馈、活动轨迹等零数据。其次,对采集的零数据进行预处理,零数据区别于大数据,其数值极小或为零,分布较分散且容易被忽视,极易被系统或者人为清洗和淘汰,在数据的筛查与审核过程中,需要人为或系统多次继续回溯与检查,以保证采集的零数据的完整性与准确性,同时对不符合条件的零数据予以剔除,避免出现零数据错误与零数据遗漏的现象,保证零数据的真实可用。最后,将预处理后的零数据进行提炼、整合并集成,采用分层分级的方式进行存储,并及时对存储系统内的零数据进行动态补充更新,保证零数据能够被综合档案馆实时利用。
(二)零数据处理分析,精确适用
零数据处理分析层主要包括对零数据的处理与分析两个阶段,主要是对前期采集的零数据运用数据分析技术,如聚类技术、序列分析技术、关联分析技术等进行处理分析,判断综合档案馆档案信息服务零数据产生的成因,以保证数据的精确适用。此阶段主要是处理服务主体、服务客体、服务内容的零数据,从系统性能方向继续效用评估,评估零数据的有效性和无效性。其中,有效数据可直接借鉴图书情报、计算机等领域的数据处理成熟技术与方法分析零数据产生原因,为精确构建服务策略奠定基础;而无效零数据并非无用数据,可以用來检验系统设计的合理性,如因系统故障或人为干扰等问题导致则需要进行系统故障排查及人为干扰排查优化,以消除此部分无效零数据。在零数据处理分析的整个过程中,要保证数据分析结果的精确性和适用性。分析服务主体、服务客体、服务内容等不同要素零数据产生的内在联系和因果规律,得出综合档案馆信息服务零数据产生的适用性结论。因三要素相互融合、相互渗透,因此其产生的原因也相互影响、相互作用,主要有以下原因构成:档案开放的有限性及资源缺乏深层次的挖掘使档案价值难以展现;档案宣传力度不足及宣传手段落后难以吸引潜在用户;公众自身档案知识素养与文化背景局限性及档案服务内容陈旧与服务方式单一导致档案信息服务中不同类型的零数据产生等。
(三)零数据反馈利用,合理高效
零数据反馈利用层主要是根据前期的分析结果进行零数据的灵活利用,主要包括服务策略的构建以及根据零数据的利用结果进行评估与反馈两个阶段。针对零数据处理分析的结论进行服务策略的构建,以“对症下药”,主要包括以下几个方面。第一,用户行为分析与追踪服务。基于用户的行为轨迹分析用户的习惯偏好、潜在需求,对用户进行追踪服务,采用合适的方式增强与用户交互性,以此提高用户黏度。第二,档案资源建设与推送。将具有高利用价值的档案资源进行深层次挖掘与编研,揭示档案背后的故事与价值,并定期运用具有影响力的微信公众号、微博等新媒体手段和音视频、H5页面、VR等新技术新手段进行档案推文、新闻、相关报道等推送,为公众提供良好的档案文化环境。第三,档案服务活动创新与更新。基于馆内零数据情况对长期处于零用户的专题展览进行裁撤,根据用户需求进行选题与内容更新,运用虚拟现实技术、环幕投影技术、360度全息成像技术等,对优质档案资源进行多维度展示并及时更新档案内容,以获取更多读者,扩展档案服务内容的受众面。此外,对服务策略活动中产生的整体数据尤其是零数据情况进行分析,分析是否达到预期效果以及在服务策略实施后零数据的产生情况,以此评估服务策略的有效性,并根据评估结果及时对服务策略进行优化,保证档案零数据利用的合理高效。
零数据在档案学领域尚未引起足够重视,本研究尝试引入零数据理论,探索性地对大数据、小数据及零数据的异同进行分析。本文从服务主体、客体、内容三个维度剖析综合档案馆档案信息服务中的零数据及其价值,并结合信息服务的基本流程,从信息采集存储、处理分析、反馈和利用三个层面构建了综合档案馆档案信息服务路径,旨在引发学界对档案馆零数据研究的重视,亦期待其应用于指导综合档案馆档案信息服务实践。本文研究的不足在于实践案例匮乏,因而难以为相关论点提供事实性支撑。
注释及参考文献:
[1]吕元智.基于小数据的数字档案资源知识集成服务研究[J].档案学通讯,2016(6):47-51.
[2]刘芮,谭必勇.小数据思维驱动下我国综合档案馆档案信息资源精准化服务路径探析[J].档案学研究,2020(3):75-82.
[3]马双双.基于小数据的我国档案信息资源个性化服务研究[J].图书馆学研究,2018(4):86-91.
[4]LAROCHELLE H,ERHAN D,BENGIO A Y. Zero-dataLearningofNewTasks[C]//AAAI.2008,1(2):3.
[5]薛雁丹,卜言彬,陈婷,等.Oracle数据库任意距离零数据丢失保护的解决方案[J].电子世界,2016,507(21):88,90.
[6]雷顺利.基于零借阅图书分析的馆藏优化和质量控制[J].图书馆杂志,2010,29(1):9-12;7.
[7]王静芬,闵翔,黄静.零借阅中文图书出版社分析与馆藏优化策略研究[J].图书馆建设,2016(4):58-61.
[8]赵文芳,李兰.降低高校图书馆馆藏零借阅率对策研究[J].图书馆建设,2019(3):136-141.
[9][17]王彦力,杨新涯,冉蔚然.零数据理论及其应用模式研究[J].大学图书馆学报,2019,37(6):51-56.
[10][22]杨新涯,刘芳兵.基于零数据理论的阅读推广模型与实践研究[J].图书与情报,2020,194(4):1-8.
[11]刘芳兵,王彦力,冉蔚然.零数据在馆藏档案全流程优化中的应用研究[J].图书与情报,2020,194(4):9-14.
[12]许天才,冯婷婷,杨新涯.运用零数据破除信息茧房的研究[J].图书与情报,2020,194(4):15-20.
[13]王向女,李子欣.基于4C理论的档案潜在用户转化策略研究[J].北京档案,2021,No.369(9):14-17.
[14]杨静.“互联网+”时代档案潜在用户转化的思考[J].档案学研究,2018(1):75-81.
[15]刘朝,马超群.大数据与小数据深度融合的价值与路径[J].人民论坛,2021(Z1)30-33.
[16]王笑丹,陈慧瑛.浙江省档案馆首次接收普通家庭档案进馆[EB/OL].[2020-07-19].http://www.saac.gov.cn/daj/ c100206/201401/2d168c0cba1945fba9f888d1b9c90176.shtml.
[18]刘婷,高研,程熙.虚拟现实技术在网上档案展览中的应用研究[J].档案学研究,2012(5):497-49.
[19]杨智勇.智慧城市背景下的档案信息服务模式研究[J].檔案学通讯,2019(1):97-99.
[20]夏基,韦雪迪.我国档案馆、图书馆公共服务结果均等比较研究[J].档案学通讯,2020(4):20-27.
[21]汪茜.乡土社会的留声机:我国村级档案馆建设探索及启示[J].北京档案,2020,No.359(11):29-31.
作者单位:湘潭大学公共管理学院