基于小数据的档案信息服务精准化研究*
2021-08-04聂云霞何金梅肖坤
聂云霞 何金梅 肖坤
(南昌大学历史系 南昌 330031)
0 引言
大数据时代,档案部门以档案用户为中心,积极开展集丰富的档案资源、智能化的服务系统、互动化的服务体系、多元化的服务方式、个性化的服务内容为一体的档案信息服务,取得了良好的社会效应。但大数据时代信息超载现象严重,相对狭窄的信息通道中夹杂着太多价值密度低、冗余度高的“副信息”,给档案信息服务实践中个性化信息服务需求的满足造成了一定困扰。在现有研究成果中,有学者指出在大数据时代档案信息服务存在档案信息服务体系缺乏一定的针对性,档案服务定位缺少对用户需求的分析[1],数字档案馆信息服务中服务理念相对落后,并且用户研究不够精细,资源建设与用户建设不同步[2]等问题。因此相较于大数据相关的思维所反映出的总体思路、智能思维、容错思维,小数据主要包括的个性思维、因果思维、精确定位和用户参与等4个方面[3]在大数据时代引起学者们的关注,从另一种思路拓宽了开展精准化档案信息服务的可能性。
1 小数据与档案小数据
1.1 小数据
2013年美国康奈尔大学Estrin Deborah教授在题为“Small Data,Where N = me”的报告中首次提出小数据的概念并肯定了其重要性,她指出从人们个人数字记录中获得的小数据,包括访问的社交网络、搜索引擎、移动运营商、在线游戏和电子商务网站留下的数字痕迹将改变人们思考和实践的方式。[4]此后小数据的概念被不断的丰富,并被广泛应用到公共服务以及电子商务中。目前学界对小数据的定义和大数据一样,尚未形成完全共识。但和对大数据的“4V”特性的共识一样,学界对于小数据具有数据总量小、结构简单、易控、价值密度高、隐私性强等特点已达成共识[5]。且从相关定义中可见,小数据的“小”并不仅仅是大数据的“大”的相对面,表示数据量的小,而是表示数据采集对象是一个个体。在大数据技术与档案部门信息服务结合不断深入的趋势下,进一步引入档案小数据,关注用户个性化需求,基于小数据思维提供精准化的档案信息服务将形成档案部门信息服务新模式,以提高公众对于档案信息服务的关注度和满意度。
1.2 档案小数据及其构成
对小数据的概念分析,“档案学在这方面的研究借鉴了邻近学科的研究成果,如图书馆学、情报学以及计算机科学在该领域的研究。”[6]当前,在档案学领域多将档案小数据等同于档案用户小数据进行研究。但“精准”应是自上而下和自下而上双方向相结合的一种模式,既要从公众浅层的实际需求出发,还应该从上层需求出发,从社会发展的宏观视野出发,推送信息。[7]为达到精准化的档案信息服务,结合“小数据”的概念和特征,笔者认为档案小数据主要包括但不限于档案用户小数据和档案工作人员小数据。通过对两者的收集和处理,既对档案用户信息需求进行细粒度分析,又从档案部门内部优化档案信息服务,从而提高档案信息服务的精准化。
1.2.1 档案用户小数据
通过对现有研究成果的梳理发现,学者们将档案用户在利用档案信息资源过程中产生的能展现用户行为需求特征的各种数据集合[8],即在利用档案的过程中产生的思维活动、需求表达、利用行为等各种数据[5]都统称为档案用户小数据。通过总结归纳,档案用户小数据应是不同类型档案用户的背景数据与其在接受档案馆服务全过程中产生的表达需求、利用档案等多种类型数据的集合。并根据档案用户小数据的特点和档案利用行为过程,在用户个体特征数据、行为监测数据、外围共享数据[9]三种类型的基础上,将档案用户的档案利用反馈数据单独分类,以便结合档案工作人员小数据优化档案信息服务模式。即档案用户小数据包括档案用户基本特征数据、档案利用行为数据、档案利用反馈数据以及其它社交共享数据,其主要构成见表1。
表1 档案用户小数据构成
1.2.2 档案工作人员小数据
档案工作人员小数据是档案馆工作人员的背景数据以及在档案工作全过程中产生的反映日常档案工作特点的多种类型数据的集合,包括档案工作人员基本特征数据、日常工作数据以及其它社交共享数据,主要构成如表2。与档案用户小数据关注用户利用行为数据相比,档案工作人员小数据更为关注档案工作人员的工作日程、工作状态等日常工作数据。对档案工作人员小数据的采集是为了借助数据化反馈工作效率,结合档案用户反馈数据更好优化档案信息资源服务模式,从档案部门内部进行自我调整。
表2 档案工作人员小数据构成
2 基于小数据开展档案信息服务精准化的可行性
档案用户个性化需求的满足建立在档案部门比档案用户更了解自身的信息需求上。“依照马斯洛‘基本需求层次理论’,信息学家科亨(Kochen)将用户信息需求划分为客观状态层次的信息需求、认识层次的信息需求、表达层次的信息需求三个层次。”[10]如果用户主动到档案部门进行咨询,说明用户已经有较为明确的信息需求,档案部门根据其显性的信息需求开展服务就能满足用户的需要。但是受档案用户受教育程度、知识结构、工作岗位以及信息素养等因素影响的客观状态层次、认识层次隐性的用户未意识到,或者是已经意识到而无法表达的信息需求需要档案部门主动挖掘。因此在全面推进档案数字化,逐渐构建数据态档案管理的过程中,在基于小数据思维采集档案用户产生的、与其相关的全方位数据,通过数据分析工具的分析,可更好掌握和预测档案用户信息需求,并通过用户的反馈数据以及档案工作人员小数据不断优化档案工作使得档案信息服务更精准。
2.1 档案数字化的全面落实以及逐渐向档案数据化推进
2020年6月20日颁布的《中华人民共和国档案法》第五章第三十八条明确“国家鼓励和支持档案馆和机关、团体、企业事业单位以及其他组织推进传统载体档案数字化。”[11]目前,档案信息化的工作重点仍在全面推进档案数字化阶段,已经取得了较大成绩。但随着信息技术发展、用户需求的多元变化以及档案数字化具体工作实践的经验总结,档案数据化引起档案界的广泛关注。具体来说,“档案数据化是指档案部门以用户需求和业务需要为导向,将数字档案资源(包括数字化转换形成的数字档案资源和归档电子文件)转换为可供阅读、分析和处理的档案数据资源的过程。”[12]档案数据化被认为是档案数字化发展的新阶段,可实现数据态、语义级的细粒度档案管理。基于档案用户小数据的用户需求细粒度分析与档案信息资源的细粒度管理相结合将真正实现精准化档案信息服务。
2.2 关键技术已成熟落地且仍在不断完善
档案信息服务的精准化离不开信息技术的支撑,李财富、林夕余提出用户画像技术、数据仓库、数据挖掘、智能代理技术是档案信息服务的关键技术。[8]以上技术在不断的发展中已经融入到各行各业的发展中,促进行业内服务方式的转变。例如在相近学科图书馆学的研究中,根据不同类型用户进行细分,利用用户画像技术来构建用户群体画像,为用户提供差异化、精准化、个性化的图书馆服务[13],给档案信息服务提供了借鉴。在基于小数据的精准化档案信息服务模式中,用户画像技术通过档案用户以及工作人员的小数据的采集形成特定标签,建立档案用户和工作人员的全貌模型;数据仓储技术的给档案小数据建立一种体系化的信息存储环境,形成一个综合的、适合分析的数据环境;数据挖掘从档案用户小数据库中挖掘出用户感兴趣的、潜在的有用信息。并且随着技术创新、档案人才培育等不断发展,用户画像、数据仓储以及数据挖掘与档案信息服务之间的融合将更加深入和完善。
2.3 原始档案用户已有数据积累
有资料显示,国家综合档案馆2019年共提供1819.1万卷/件次档案利用,国家综合档案馆专职人员22584人,国家专门档案馆专职人员3119人,部门档案馆专职人员1739人。[14]针对目前档案资源利用情况,“档案用户数量相对其它行业要少得多,难以形成大规模的用户数据,因此一般不太可能进行有效的大数据分析。”[9]各省市档案馆可以依据目前已有的档案用户数据以及职工数据为基础分别建立用户和工作人员小数据。以江西省档案馆为例,2018年江西省档案馆接待利用档案及资料2262人次,提供利用档案资料43993卷/件次。[15]在提供档案利用时全面记录的查阅者的个人信息和查阅需求,为用户小数据的建立打下了基础。此外,江西省档案馆对本馆档案人员的数量、年龄以及学历情况都做了较为详细的公布,在一定程度上说明档案馆已经掌握档案馆工作人员的部分数据。
2.4 个人信息合法合规利用的法制环境初步形成
档案用户数据采集、利用是档案信息服务精准化实现的基础。当前,政府、企业和其它社会组织为实现高效社会服务、获取经济利益等目的争相开发利用数据资源。长久以来,公众通过让渡个人信息获得便利服务的同时,用户数据无限制采集,不法分子盗取、买卖个人信息等行为严重侵害公民信息权的事件让公众处于恐慌之中。目前,国家通过制定相关法规政策来引导社会组织对个人信息的合法合规收集、处理和利用,以及通过对违法收集、处理和利用用户信息的客户端以及企业进行约谈、通报、惩罚、责令整改等方式提高政府、企业等社会组织合法合规利用个人信息的意识。2019年1月,中央网信办、工业和信息化部、公安部、市场监管总局四部门联合发布《关于开展APP违法违规收集使用个人信息专项治理的公告》,“经过一年的专项整治效果显著,APP运营者履行个人信息保护责任义务的能力和水平明显提升”[16]。2020年5月28日第十三届全国人民代表大会第三次会议审议通过《中华人民共和国民法典》[17],“构建了自然人与信息处理者之间的基本权利义务框架,合理平衡保护个人信息与维护公共利益之间的关系(草案第一千零三十六条至第一千零三十八条)。”[18]上述法律法规的制定和颁布实施,一方面给个人信息利用者吃了“定心丸”,保障了个人信息利用者的合法权益;另一方面也为个人信息保护上了“安全锁”,消除了个人信息保护的安全隐患。当前,我国公众法律意识和信息权意识进一步提升,我国个人信息保护法律体系也逐步建立健全,个人信息合法合规利用的法制环境已初步形成,这将为档案信息精准化服务提供更佳的外部环境。
3 基于档案小数据的档案信息服务精准化服务模式
根据档案信息服务的特征,从档案小数据的采集、处理、存储、服务以及模式优化出发,将基于小数据的档案信息精准服务模式分为档案用户层、档案用户小数据采集处理层、档案小数据存储层、档案信息精准服务层、服务模式优化层五个层级(见图1),以期实现精准化的档案信息服务。
图1 基于档案小数据的档案信息服务精准化服务模式
3.1 档案用户层
基于小数据的档案信息服务,档案用户既是数据的起点,也是服务的回归之处。因此,不管是出于数据采集以及服务的角度,档案部门都应与用户层建立良性的交互关系。
3.2 档案用户小数据采集处理层
3.2.1 档案用户小数据的采集
档案部门现在主要通过线上和线下给用户提供档案服务,因此档案用户信息的采集也主要是通过这两种方式。档案用户基本特征数据采集主要是在用户主动进行线上、线下档案咨询或者参加档案活动时进行。档案部门通过制定规范、统一的格式在在开展线上和线下服务时采集档案用户基本特征小数据,以便数据的利用;档案利用活动数据采集可通过线下视频监控设备、无线传感器网络采集,以及利用相关技术抓取线上用户网络搜索、浏览档案信息的数据;档案利用反馈数据主要通过档案馆主动进行用户回访、问卷调查等方式结合用户留言反馈采集获取;用户其它社交共享数据是档案用户在第三方社交平台中产生的有关档案信息的传播数据,可通过与第三方达成合作协议,通过其后台数据库获取。
3.2.2 档案用户小数据的预处理
从档案用户的基本特征数据到其它社交共享数据,档案用户小数据的价值密度、可控性、可用性在减弱,数据的总量、噪声在增加。[19]档案部门可通过对档案用户小数据进行清洗、变换、归约预处理,从而提升档案用户小数据的价值密度和可用性。在档案用户小数据采集实践中,会因用户填写不规范、用户持隐私保护的心态以及其它技术原因导致采集到的档案用户小数据存在缺失、重复等情况。通过对档案小数据的清洗,可删除重复数据、补充缺失数据和去除异常数据。通过对档案小数据的变换将通过多种方式采集的多种类型的档案用户小数据转换成适合进行档案用户信息需求分析的形式。数据归约是在保证原有数据的完整性与有效性的基础上,将降低数据规模,精简数据量。[20]档案用户小数据规约的意义就是通过将档案用户小数据集的缩小,提高档案部门在数据分析中对数据处理的速度,从而快速反应档案用户的信息需求。
3.2.3 档案用户小数据的融合
“数据融合是对多个传感器和信息源所提供的关于某一环境特征的不完整信息加以综合,形成相对完整、一致的感知描述,从而实现更加准确的识别和判断功能,信息融合可以看成一种形式框架,目的是得到高品质的有用信息。”[21]档案用户小数据的融合包括内容和时间两个层面的融合。档案小数据内容上的融合是将通过线上、线下不同途径获得的有关的档案用户小数据进行组合,丰富档案用户形象并通过不同数据来验证和提高数据的可信度。因为用户的数据是动态且实时更新的,档案用户小数据时间上的融合将不同时间段采集到的档案用户数据进行组合来呈现档案用户的实时需求。档案用户小数据的融合为公众档案信息需求的精准化分析和预测奠定了基础。
3.3 档案小数据存储层
档案小数据存储层包括对档案用户小数据和档案工作人员小数据的存储。档案用户以及档案工作人员小数据除去基本特征数据具有相对稳定性,档案用户利用活动数据以及社交共享数据,档案工作人员的工作日程等数据均处于动态变化中,因此小数据采集要注意实时更新、动态存储。由于数据采集的复杂性,加之采集到的档案用户小数据与公众生活息息相关,一旦丢失和泄露对档案部门以及档案用户都会造成较大的负面影响,不仅公众的个人信息可能会被恶意利用,给公众带来困扰和损失,档案部门也会失去公众的信任。因此档案小数据的存储一定要做好安全防护工作,避免数据的丢失和泄露。
3.4 档案信息精准服务推送层
档案信息精准服务包括档案信息内容精确性与档案服务及时性两方面。对档案用户已经明确表达出来的档案信息需求,档案部门在已有档案资源的基础上尽可能地精准、及时满足档案用户的信息需求;对没有满足的信息需求,做出较为明确的解释,以及提供给用户一些其它获取该档案信息资源的建议。档案馆针对采集的反映档案用户客观状态以及认识层次的档案需求小数据通过用户画像等关键信息技术进行数据挖掘以及档案用户分析,发现档案用户潜在的、没有表达出来的档案信息需求,通过档案用户信息需求的细粒度分析与档案资源细粒度管理进行匹配,提高档案信息服务的效率,即在提供精准的档案信息服务的同时保证其及时性,还能通过对档案小数据的分析进行档案用户的档案信息需求预测,做到比档案用户更了解自己的需求。
3.5 档案信息精准服务优化层
档案信息精准服务优化层建立在档案用户档案利用反馈数据,以及档案工作人员小数据之上。档案用户的反馈数据直观表达了用户的要求和建议,比如用户建议档案馆推送内容的形式要更加丰富等。档案工作人员的小数据的处理与档案用户小数据的处理相似,通过对档案工作人员的小数据的分析,在掌握档案工作人员的性格特点、兴趣特长以及工作方式的基础上更好地优化工作配置,提高档案信息服务的效率。档案信息精准服务优化层进行的数据分析结果应及时反馈给各个层级,以优化整体服务模式。
基于档案小数据的档案信息精准服务模式,给档案用户的服务呈现出服务主动、信息处理智能化、服务内容个性化、信息传播具有时效性以及服务流程不断优化等特征,让用户享受到更好的服务体验,同时促进档案信息服务的社会化。
4 基于小数据的档案信息服务精准化实施策略
4.1 加快档案资源的共建共享
档案资源的共建共享是开展档案信息服务精准化的保障。档案用户的信息需求内容、形式在朝着多元化发展,给档案馆服务提出了更高的要求,但是档案馆藏资源具有地域性、资源结构相对固定等特点。为了满足用户个性化的档案信息需求,提供精准化的档案信息服务,档案馆应加快档案资源的共建共享,将档案资源形成大的资源系统,弥补档案馆藏资源单一的不足。目前各省市已经在加快档案资源的共建共享,例如上海、江苏、浙江、安徽推进长三角地区民生档案“异地查档、跨馆服务”,广西推进北部湾经济区档案信息资源共享平台建设[22];川渝两地档案馆签署协议,“加快川渝地区民生档案服务共享平台建设,扩大民生档案异地查档跨馆服务内容和覆盖范围,努力实现档案公共服务普惠共享”[23]。但档案资源的共建共享应基于档案用户需求,在此基础上进一步扩大档案资源共建的范围。需要指出的是,档案馆资源共享建设是循序渐进的过程,档案馆基于用户小数据挖掘、分析出的公众档案信息需求不能因为目前自身馆藏资源的不足就忽视。因此在档案资源无法达成共建共享之前,档案部门之间也应建有交流平台,将自身目前无法满足的档案需求进行共享,将档案用户小数据进行转移,从而满足用户的信息需求,提高用户的满意度。
4.2 加强移动终端服务的建设和推广
“‘互联网+’时代,人们更倾向于通过移动终端查询和获取档案信息”[24],而手机则是普及化程度最高的移动终端代表。第46次《中国互联网络发展状况统计报告》数据显示,截至2020年6月,我国网民规模达9.40亿,手机网民规模达9.32亿,网民使用手机上网的比例达99.2%。[25]“档案馆移动终端服务将传统的面对面服务和档案信息网站服务等方式,拓展到移动终端服务平台上,为用户提供实时可移动服务。”[26]2016年国家档案局印发《全国档案事业发展“十三五”规划纲要》提出,“档案工作要主动适应经济发展新常态,加强理念创新、手段创新,拓宽通过档案网站和移动终端开展档案服务的渠道”[27]。“档案APP是档案机构和组织以馆藏档案资源为依托,面向全社会开发的安装于移动终端的提供档案服务的应用开发软件”[28],是开展移动终端服务的有效途径。但是截至2019年6月我国可供下载利用的档案APP仅有22个[29],可见目前档案移动终端服务还处于起步阶段。但公众利用移动终端已经成为常态,档案部门可以通过档案APP、微信公众号、微信小程序等方式在移动终端上与用户建立直接联系,越过档案部门与公众间长久存在的“信息鸿沟”,强化互动,根据采集到的用户兴趣、利用偏好等数据向用户精准推送个性化的服务内容。并且在用户的利用中进行利用反馈数据的采集,从而更好地进行档案信息精准推送。
4.3 重视档案潜在用户的开发与汇聚
当前,我国档案馆的用户规模正呈上升趋势,但是上升幅度小,用户粘性不高。并且因为在长期发展中档案馆与公众之间存在距离感,导致公众对档案馆及档案资源认知较为薄弱,限制档案用户规模的有效扩大,因此存在较大规模的潜在用户。“从档案的视角来说,没有被服务好的用户群体就是潜在用户群体,这一群体虽然具有潜在的信息需求,但是并没有被档案信息机构服务过。”[30]面对档案馆的现实用户,可通过对用户小数据的深度挖掘形成个人标签来增加现实用户的粘性,如网易云、淘宝等APP生成个人年度数据报告为例,就在用户中引起很大的反响。但相对档案馆没有服务过的潜在用户,档案馆就无法获得其用户数据,档案部门可通过加强与其它客户端之间合作,如利用跨平台分享、转发等方式,通过现实用户将相关档案信息内容转发至微信好友、微信朋友圈、QQ空间等社交平台,激发潜在用户的一些档案需求,并在分享中扩大档案信息资源的可获取方式来转化潜在用户,形成潜在用户的汇聚。
4.4 实现档案“大小数据”的融合发展
英国数学家托马斯·克伦普在《数字人类学》一书中指出,“数据的本质是人,分析数据就是在分析人类族群自身,数据产生于人类社会的各种活动,其价值也在于服务人类社会,让生活变得更加美好”[31]。因此,不管是档案大数据、还是档案小数据都是为了更好地给用户提供档案信息服务,只是两者之间数据关注点和处理方式不同而已。因此,基于小数据的档案信息精准化服务并不是完全与大数据进行剥离,独占鳌头。两者之间是相互融合的关系,只有相互融合才能更好地推进档案信息的精准化服务。就如在基于小数据的档案信息精准化服务模式中的优化层级,对档案用户反馈数据以及档案工作人员小数据的分析就需要大数据的嵌入,进行统计分析,从而将外部反馈与内部自我优化进行联动,达到整个服务模式的自我优化的效果。
5 结语
大数据时代,信息环境随着信息技术的发展与应用变得更加复杂,多种类型的海量信息造成信息过载,给公众带来信息困扰。信息精准化服务是用户面对信息过载所渴求的,也是信息服务机构提升用户满意度的必然之路。档案部门以用户为中心,将用户小数据与档案部门实际信息服务情况相结合,利用发展成熟的信息技术进行数据挖掘、需求分析和预测,为档案用户提供个性化和精准化的档案信息服务,符合档案馆“以人为本”的服务定位,是技术驱动与内容挖掘相结合的有力探索。但值得注意的是,基于小数据的档案信息精准服务必须以保护数据安全、防止档案用户个人隐私以及档案工作人员隐私的泄露为前提,只有让公众信任,与公众建立良性数据采集与保护机制,才能保证档案信息服务不断朝精准化发展完善。