大数据时代基于可视化分析的档案利用与服务研究
——以中山大学2018年度档案利用数据分析为例⋆
2019-11-13舒忠梅
舒忠梅
(中山大学档案馆 广州 510275)
0 引言
档案作为一种真实、可靠、兼具凭证性与权威性的信息资源,正日益成为国家治理和公共服务必不可少的重要组成部分[1]。在大数据时代,积极探索档案资源利用的方式方法,充分发挥档案数据的资政和凭证作用,提升档案工作的质量和效率,做好档案利用和服务[2]-[3],已成为档案管理工作的重要任务。
在国家宏观政策指引下,各级政府和企事业单位近年来积极投入数字档案馆的资源体系和应用系统建设,开展全流程网络化档案管理与服务支持,目前已积聚海量档案数据。但如何从这些数据中筛选出有价值的档案信息、更好地提供档案服务是亟待解决的问题。由于目前缺少有效分析挖掘数据价值的方法和技术应用,档案海量数据的价值尚未充分挖掘出来[4]。本研究将档案数据和大数据技术相结合,以档案利用数据为研究对象,采用可视化分析技术,对档案利用数据进行深入挖掘分析,探索档案管理与大数据行动的融合,构建档案智能服务策略、模型和体系。
1 大数据时代档案利用服务现状
1.1 国家战略政策形势分析
从国际上看,西方国家纷纷推出档案共享服务计划,例如,2011年起美国颁布《政府文件管理》、《管理政府文件指令》、《联邦文件问责法》等一系列重大政策与战略部署;美国国家档案馆网站面向公众提供档案信息社会化共享的服务平台,为不同层次、不同需求以及不同类型的用户提供了适合自身的访问方式;英国2003年建立英国政府网站档案馆,保存网站档案90TB、25亿网页,通过“访问档案”项目为用户提供极其丰富的档案资源服务,点击量数十亿次。澳大利亚2012年颁布《政府数字转型战略》推动数字文件管理;2014年《数字连续型2020政策》树立新目标。
从国内来看,2009年,冯惠玲教授研究团队提出“电子文件管理国家战略”,自上而下、以“科学管理、无纸应用”为重点,系统性推进各领域的无纸化、凭证化应用。2014年,国务院在《关于加强和改进新形势下档案工作的意见》中,针对“如何建立健全方便人民群众的档案利用体系”问题,指出“主动开发档案资源,积极提供档案信息服务”。2015年,国务院发布《促进大数据发展行动纲要》,提出“数据已成为国家基础性战略资源……全面推进我国大数据发展和应用,加快建设数据强国……”。2016年,国家档案局在《全国档案事业发展“十三五”规划纲要》中,明确“国家大数据发展战略和‘互联网+’行动计划的推进将深刻影响档案工作的理念、技术、方法及模式”。这些战略举措为我国大数据时代的数字档案资源整合与服务带来了新思维、新方式、新资源、新基础设施、新能力和新权利等方面的机遇与挑战[5]。
综上所述,国内外档案管理数字转型大势所趋,大数据背景下的档案利用与服务亦成为关注热点。大数据技术对档案利用服务产生了深刻影响,档案利用服务的理念和导向、形态和趋势、环境和方式均发生显著变化[6]。
1.2 文献研究现状分析
为明确本文选题的必要性和创新性,笔者先做中英文相关文献研究。检索时间范围不限,在中文文献方面,分别以检索式(1)“‘篇名=大数据’并含‘篇名=档案利用’且‘篇名=分析’”,和检索式(2)“‘篇名=大数据’并含‘篇名=档案服务’且‘篇名=分析’”,在知网全文数据库和人大文库中进行模糊检索,共命中11篇中文文献。在英文文献方面,分别以检索式(TI:(big data))AND(TI:(archive use)),(TI:(big data))AND(TI:(archive service)),(TI:(big data))AND(TI:(archive reference))在Web of Science和Emerald期刊检索,共命中5篇外文文献。由此可见,国内外相关研究在数量上较为有限。
在研究内容方面,国内外文献主要探讨大数据背景下档案利用服务问题、分析档案利用服务的特点和利用主体的特点[6],对档案利用影响因素[7]和利用模型[8]进行探索。
在研究方法方面,已有研究大多从理论上探讨档案资源和服务体系构建等,较少对档案利用特征进行剖析;虽在理论层面对大数据时代的档案利用服务特点略有涉及却似“蜻蜓点水”不够深入,且缺乏具体的案例数据及其分析支撑。
在借鉴已有成果基础上,笔者从案例分析视角,依托中山大学2018年度档案利用数据,进行多维视角的档案利用资源可视化挖掘和实证分析,以满足日渐增长的新型档案服务需求,实现主动式、精准的档案服务,构建智能服务体系。
2 档案利用数据的可视化分析案例
由于档案资源及其价值实现的特殊性,该领域的用户需求分析不容易展开。大多数档案服务机构目前仍停留在关注档案资源内容的建设上,却较少剖析档案用户的利用形式和行为习惯等个性化需求。从少有的档案利用记录日志来看,它们主要以不能直接利用的“大数据”形态存在,需要对其进行清洗加工、统计分析和多维挖掘后,才能转化为易用的、关于档案利用的用户行为方面的知识[9]。
用户行为是用户需求的外在化体现,档案的利用程度是判断其价值是否得以实现的重要维度之一。为充分发挥档案的凭证价值、提升档案的服务质量,有必要对影响档案利用的档案资源和用户需求的主要特征及其之间的关系进行深入挖掘和分析。下文针对案例中2018年度档案利用数据,从档案利用门类、档案利用者机构和档案利用年度等方面进行多维度可视化分析,挖掘并直观呈现档案资源和用户特征及其之间的关联关系,为提供档案智能和个性化利用服务奠定基础。
2.1 利用的档案门类分布
2018年,档案利用合计5954卷次、20411件次、6191人次,如表1和图1所示。
表1 2018年档案利用总体情况统计
其中,教学档案借阅498卷次、640件次、499人次,教学档案学历认证672卷次/件次、554人次,科研档案利用154卷次、202件次、165人次,基建档案利用317卷次、1711件次、218人次,其他门类档案利用4313卷次、17186件次、4755人次。
2.2 档案利用者分布
根据学校机构设置,将档案校内利用者分为:学院、直属系、管理服务机构(党政机构、直属单位、产业集团、其他机构)、附属医院;此外,校外利用者主要有校友和社会两种类型。
从不同利用者利用档案件次来看,产业集团利用件次最高(11063件次),占总利用件次的54%;其次是党政机构和社会,利用件次分别为2578件次(13%)和2310件次11%)。如表2和图2、图3所示。
表2 不同利用者类型的档案利用统计
从不同利用者的利用卷次来看,学院、直属系利用1810卷次最高(30%);其次是校友和社会,利用卷次分别为1045卷次(18%)和990卷次(17%),如图4所示。
从不同利用者的利用人次来看,学院、直属系利用人次最高(2316人次),占总利用件次的37%;其次是社会和校友,利用人次分别为1348人次(22%)和1047人次(17%),如图5所示。
从不同利用者的档案门类利用来看,产业集团,党政机构,社会,附属医院,学院、直属系和直属单位利用其他门类档案较多,校友利用教学档案较多,如图6所示。
2.3 档案年度分布
利用档案年度分布如图7所示。从档案利用件次来看,如图8和图9所示,较多的档案年度集中在2015年、2001年、2004年和2000年,分别为3407件次(17%)、3020件次(15%)、2538件次(13%)和2334件次(12%)。
不同门类档案利用件次前十的年度如图10所示,教学档案利用件次前十的年度分别为2017年、2005年、2006年、2003年、2004年、2001年、2002年、2000年、2008年和1998年;科研档案利用件次前十的年度分别为2004年、2000年、2017年、2014年、2008年、2016年、2015年、2013年、1964年和2007年;基建档案利用件次前十的年度分别为2015年、2014年、2000年、2012年、1986年、1991年、2004年、1985年、1983年和2008年。
3 大数据时代档案利用服务策略
大数据技术在档案工作领域的应用,对档案资源数据和利用数据进行综合分析与深入挖掘,可以获得更丰富、更有价值的数据分析结果[11]。实现个性化服务是大数据时代档案馆的一项重要特征,而档案服务的个性化关键核心是用户所获信息的个性化[12],需从以下方面提升大数据时代档案利用服务水平。
3.1 树立以用户为中心、主动提供档案利用服务的理念
在大数据时代,社会公众对公共服务提出了更高要求,档案利用作为公共服务不可或缺的基础支撑,需要树立主动服务意识,做到以用户为中心。同时,利用现代信息技术,构建档案在线查阅平台,发展档案线上利用方式,在保障档案信息安全前提下,通过一个平台、一个入口即可查到所需的各类档案,实现网络化利用。并充分利用大数据技术,主动为用户提供便捷的档案信息和个性化的智能档案服务,充分发挥档案应有的作用[13]。
3.2 构建基于档案大数据的全生命周期管理模型
密切关注国际档案信息发展前沿研究和电子文件在线归档实践应用,借鉴文件管理国际标准体系和开放档案信息系统OAIS(Open Archival Information System)参考模型,树立“档案即服务”理念,深入到档案内容,以档案内容为建模对象、构建基于档案大数据的全生命周期管理模型。并按照档案信息化建设“存量数字化、增量电子化、建设标准化”要求对档案数据资源实施前端控制,对档案信息资源自动捕获归档,以电子文件全生命周期管理业务模型为基础,对文件档案全过程连续性管理,积累可用的档案资源和档案利用大数据,实现档案数据资源“收”、“管”、“存”、“用”全过程管理和档案利用行为数据记录,构建档案大数据资源平台。
3.3 建立 “人”、“事”和“时间”的三维立体档案模型
对于档案大数据资源平台中的档案资源,以“人”、“事”为核心建立电子文件内部关联,引入时间戳,建立基于“人”、“事”和“时间”的三维立体档案模型。如图11所示,与学生相关的档案,经业务系统归档后,通过构建档案本体,运用元数据、文本分析、语义分析、关联分析、聚类分类、可视化等大数据挖掘分析技术和方法,建立关于学生的三维立体模型:M(学生、学习、时间),将学生的基本信息、入学信息、成绩信息、活动信息、毕业信息等关联起来。
3.4 形成以大数据技术运用为支撑的智能服务体系
在建立如图11所示的“人”、“事”和“时间”三维立体档案模型的同时,收集档案用户的利用时间、检索次数、检索内容、利用方式等数据;记录用户的利用特征、利用行为习惯及其背景信息,标识形成档案资源与用户关系,建立档案利用行为数据库。通过运用大数据预测分析和个性化推荐技术,分析档案资源特征和用户利用需求及其之间的关系,挖掘档案用户潜在的利用需求,通过个性化服务,主动向特定用户或用户群体推送可能需要的不同层次、不同类型的档案资源服务[14]。并通过聚类分析档案用户特征及利用信息,搭建不同应用分析和预测场景,预测档案资源和用户关联趋势,构建档案用户信息需求感知引擎,建设档案精准、智能、个性化档案利用服务体系。
4 结语
以档案利用分析为基础,结合大数据技术应用,提升档案利用服务是一个复杂的系统工程;需要在档案管理体系和资源建设基础上,建立以用户为中心的档案利用服务理念,同时注重用户利用行为数据的收集和管理。使用数据挖掘、可视化分析等大数据技术将档案用户利用行为日志“加工”为易用的用户行为知识,实现档案数据的“增值”,建立基于“人”、“事”和“时间”的三维立体档案模型。通过挖掘档案资源和用户特征及其之间的关联关系与趋势,主动向用户推送不同层次、内容丰富、形式多样、直观生动的个性化档案信息资源,实现智能、主动、精准的档案服务,满足日渐增长的新型档案服务需求,提高档案信息利用的能力和效率,加强档案信息资源开发的深度和广度,拓展和深化档案信息服务的内涵,从而提供更多高质量的档案信息资源和档案信息服务[15],让档案更有用、更好用,提高档案馆业务信息化、档案信息资源深度开发与智能服务水平。