大数据和泛在知识背景下的中国数据档案发展研究
2018-09-06陈岩
■陈岩
1 背景
大数据和泛在知识环境下,数据主义提供了突破性的技术和强大的全新动力,档案馆数字化服务的外延也在不断扩展,形成并进入了数据档案时代。移动数据端的广泛应用与层层升级使得其不仅可以随时随地获取庞大、海量的源数据,而且可以对第一手数据进行简易地“加工”处理,拥有综合性的信息处理操作平台功能[1]。若将大数据产业化,那么其建设的关键因素一是依靠计算机系统、云计算、海量数据分析等的先进技术与平台对一手数据进行收集、筛选、计算、分类等初步处理,另一方面通过跟踪个体用户的连续性信息行为对数据进行记录、存档、发布、可视化、关联化等进一步的“增值”处理,形成该目标用户的具有预测性的数据档案集合,将不同目标群体的数据档案相互关联与整合,总结归纳其中的发展规律从而形成相应领域的知识认识,即可实现对某一事物、现象的科学预测,获得预期的价值收益。大数据和泛在知识的不断更新,为档案事业的发展带来了新的历史机遇,数据档案越来越多地应用到各个学科领域及现实实践当中,但目前我国的数据档案发展还处于初步探索阶段。因此,本文就我国数据档案的发展现状进行研究,以期为我国数据档案建设工作的进一步开展有所助力。
2 数据来源和研究方法
2.1 数据来源
本文的数据来源分别为欧洲社会科学数据档案委员会(Consortium of European Social Science Data Archives,CESSDA)、国际社会科学数据组织联合会(International Federation of Data Organizationsfor the SocialScience,IFDO)、“中国知网”数据库、“中国国家图书馆”数据库、中国国家统计局、中国大数据、中国国家档案馆和地方各级档案机构的官方网站。通过对其中相关信息的查找、筛选,取得与数据档案相关的政策文件和研究统计报告等内容信息。在查找过程中,分别以“数据档案”、“大数据档案”、“档案数字化”、“社会记忆”等作为关键词在“中国知网”和“中国国家图书馆”数据库中进行全面检索;并以各权威机构的官方网站所发布的文件报告等作为完善和补充,以此提高对数据档案相关信息收集的覆盖率和准确率。经过前期的收集与整理,获得了120余篇中外文献。
2.2 研究工具与方法
本文主要运用了citespace、钻石模型、SWOT等分析工具,采用信息统计归纳和可视化的研究方法,分别从外部宏观发展环境、内部发展结构及数据档案内容等方面对当前我国的数据档案发展情况进行了梳理与分析。在数据档案的内容分析方面,主要利用citespace、Ucinet等工具对数据档案的相关文献进行了词频统计和共词分析的可视化分析处理,并运用钻石模型和SWOT等工具。Citespace是一款应用于科学文献中识别并显示科学发展中的新趋势和新动态,挖掘其中蕴含的潜在知识,是在科学计量学、数据可视化背景下逐渐发展起来的一款引文可视化分析软件。由于是通过可视化的手段来呈现科学知识的结构、规律和分布情况,因此也将通过此类方法分析得到的可视化图形称为“科学知识图谱”[1]。钻石模型,又称波特钻石模型(Michael Porter diamond Model),由美国哈佛商学院著名的战略管理学家迈克尔·波特于1990年提出,是一种用于对如何形成整体优势,从而在相关领域具有较强竞争力的宏观分析工具[2]。SWOT分析,即态势分析,通过统计调查的形式,对主要的内部优势与劣势、外部的机会和威胁等因素进行全面、系统的分析研究,将各种因素根据形成的矩阵相互匹配并加以分析,从而得出有决策性、指导性的结论[2]。
3 数据档案的概念及发展现状
3.1 数据档案的概念
数据档案是在大数据和泛在知识的背景下萌芽产生并得到进一步发展的,因此在了解数据档案的概念之前,有必要对其联系紧密的两个背景概念进行概括阐述,以便更有利于对数据档案的理解。
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,其本质是一种海量、多样的高增长型信息资产[3],拥有大量、高速、多样、低价值密度、真实性五大特征,但其本身并不拥有较高的价值,甚至是庞杂和无序的,需要通过新型的处理模式对其进行价值层面的深度挖掘。泛在知识环境(Ubiquitous Knowledge Environment),指由网络设施、硬件、软件、信息资源、人等有机组成的新一代科技知识基础结构,它通过全面的数字化信息基础设施、云计算、云存储和通信互联,使人、数据、信息、工具、设备等资源能够更为完全彻底地发挥作用而构建的一种普遍的、综合性的知识环境[3]。
由此,我们可以得到数据档案的概念,数据档案是指通过运用感应技术、存储技术、云计算等非常规方法获得的,以数据形式存在的具有保存和利用价值的数据资源[1]。由于我国的数据档案事业尚处起步阶段,目前尚未有关于数据档案分类的定义,通过对国外有关数据档案文献的整理,笔者认为数据档案的实质为一种“档案”。而档案的概念是指国家机构、社会组织和个人在各项社会活动中直接形成的具有保存价值的图表、声像、数码等各种形式的原始记录。因此,根据档案的来源标准可以将数据档案划分为公共性数据档案、商业性数据档案和私有性数据档案三大类[1]。公共性数据档案是指各种不以营利为目标的、未设置访问限制成本的、可进行开放获取的各类具有国家性、公益性的数据档案资源。商业性数据档案是指以盈利为目标的、需要支付访问权限成本的、在一定范围内可获取的各类商业性的数据档案资源。私有性数据档案是指由个人或组织机构进行保管的、只在其内部进行流通的数据档案资源。
3.2 我国数据档案的发展现状
3.2.1 我国数据档案建设的外部宏观发展环境分析
为对我国目前的数据档案发展现状在宏观层面进行科学、全面的认识,本文通过钻石模型分别从数据档案的数据来源、需求条件、相关与支持性产业和发展战略、结构方面对现有的有关数据档案的理论与实践表征等进行分析研究。
(1)数据来源。我国数据档案的来源和采集途径主要包括:一是国家和地方各级档案馆(室)藏的各类档案的数字化信息:将馆藏的各种载体形式的传统档案进行数字化的加工处理,运用多种媒体、网络传输、压缩备份等技术[4],对档案进行电子化的重新整合,形成馆藏范围内的档案数据库。二是具有档案管理功能的组织机构专项信息数据库信息:通过对网络收集或组织内部存储的档案及有保存价值的信息记录,如税务登记数据库、人口统计数据库等收集到的具有分析保存价值的信息。三是网络环境下的具有保存价值的各类在线交互式电子信息:此类信息主要来源于商业性企业数据平台,特别是互联网和电信企业对数据的开发利用活动,其通过实时跟踪、云计算等方法对各种移动终端收集到的海量基础数据进行整理、组织和加工,并成为多样、庞大的本地现实信息资源。
(2)需求条件。钻石模型中,需求条件主要是指国内市场的需求。内需市场是产业发展的动力,主要包括需求的结构、需求的规模和需求的成长[2]。而其中市场的需求结构是最为重要的因素,通过对目标用户的市场细分,可以使某一行业或企业优势投入到主要的市场需求当中,提升企业的核心竞争力与创新能力。对于数据档案建设的市场化大数据开发利用,其主要目的是获得预期的经济收益,其需求用户以企业为主,但根据对国内、外的各学科领域的组织机构数据档案建档研究,可以明显的发现政府、公益性组织和个人的数据档案需求明显上升,市场细分逐渐增多,个性化的用户研究成为发展趋势,如对某一城市的历史发展变迁建档、某一地区气温变化的数据建档、个人购买行为的数据建档等,在对形成的数据记忆进行统计分析后,总结归纳发展规律以形成知识,有助于为现实提供可靠的数据佐证并指导未来的发展规划。
(3)相关与支持性产业。相关与支持性产业。钻石模型中,一个企业的“单打独斗”,很难拥有持续性的发展状态和强竞争力。只有形成有效的“产业集群”,上游产业能够提供稳定的资源和技术支持,下游产业能够提高自身的竞争力水平,使上、下游的产业发展形成一个良好的产业价值链,才有助于产业的可持续性发展、竞争优势的长久保持和形成“提升效应”[2]。在正处于生命周期的初级阶段或是技术联系紧密的产业之间,这种“提升效应”会更加明显。在科技人文主义和数据主义的迅速普及下,任何现象或实体的价值就在于对数据处理的贡献,要连接越来越多的媒介,产生庞大的信息,万物互联使数据档案的建设演变为以市场用户为导向的一种信息化产业,其上游产业应是数据资源的各类收集处理平台,如百度、谷歌、腾讯、阿里巴巴、亚马逊等互联网企业、电信企业,甚至金融企业的一部分可开放获取信息。通过设立标准化、规范化的行业规则,支付相应的信息获取成本,建立信息的定向、排他性输出渠道,为数据档案中心提供相应的个性化信息资源。而下游产业则是各种面对市场用户的数据服务提供终端,如手机APP、智能家电产品、各大档案服务机构的门户网站等,提供多样化、及时化的信息服务。由此可见,抓住初始阶段的“提升效应”机会,形成数据档案建设的产业集群是发展的关键。
(4)发展战略、结构。波特认为,一个行业或企业想要谋求可持续性的发展就必须善于利用本国的历史与文化资源,根据发展的外部环境需要对内部结构进行整合、调整、升级,以做到因地制宜、因时制宜。新时代背景下,国家大力支持数据档案的建设工作。2015年8月31日,国务院印发了《促进大数据发展行动纲要》,新的《档案法》修订草案中也增设了“档案信息化与电子档案管理”的相关内容。明确了档案和数据资源建设的原则和目标,坚持大档案、大数据、大平台、大服务的建设思路,坚持社会化、法治化、标准化、网络化的发展方向,坚持真实、完整、安全、效能的原则,以需求为导向,通过机制创新和技术创新,积极开展资源集聚、管理集约、应用集成等工作,建设与新形式新任务相适应的档案和数据资源体系,充分发挥档案和数据资源的信息、证据和服务作用。到2025年,建立起全覆盖、内容丰富、形式多样、标准统一的档案和数据资源体系,进一步提高档案信息化和档案信息资源的深度开发利用水平[5]。众多举措表明,数据档案建设的东风已经吹起,奋起直上才是当务之急。
图1 我国数据档案外部宏观发展环境钻石模型图
3.2.2 我国数据档案建设的内部结构分析
本文通过运用SWOT分析,对我国数据档案建设中所拥有的资源,将其内部的优、劣势,结合外部环境的机会、威胁,进行综合性的分析与评估,进而做出最优的战略决策。
(1)要素分析。SWOT分析中拥有四个要素,分别是内部因素的优势(S)和劣势(W),外部环境的机会(O)与威胁(T)。优势是一种能为企业带来更大发展机会和更强竞争力的积极因素。劣势是一种会导致企业发展受限、需要进一步修正的不利因素[2]。以上两个内部因素主要表现为资金、技术设备、员工素质、产品质量、市场、管理技能等。机会是外部环境中对企业发展有助推作用的机遇。威胁则是外部环境中对企业发展有掣肘、阻碍作用的境遇[2]。两个外因素主要体现在政府支持、高新技术的应用、良好的市场需求和供应关系等方面。
(2)劣势——机会(WO)。对于数据档案产业而言,其正属于劣势——机会(WO)的“问题”业务。此类业务通常处于最差的收益流量状态,一方面,所在行业的市场增长率高,市场需求巨大,需要大量的投资支持其开发、建设活动;另一方面;其相对市场占有率低,产品竞争力地位低,能够生产的资金很小。因此,需要采用扭转型战略,利用外部机会来弥补内部劣势,改劣势为优势,对进一步投资进行分析,判断使其转移到“明星”业务所需的投资量,分析其未来盈利,以达到较高的相对市场占有率,促进产业的快速发展。
外部的主要有利因素:①国家政府的大力支持。《促进大数据发展行动纲要》和《档案法修订草案》的颁布,指引了数据档案建设的方向、明确了发展目标,为其建设提供了政策支持。②科学技术发展迅猛。“互联网+”、物联网、多媒体移动终端、云计算、云储存等高新技术的应用,为数据档案的建设提供了技术支持。③市场需求巨大。大数据和泛在知识提升了人们对于档案价值的认识,数字城市、社会记忆、医疗档案、环境档案和国家智库等建设,使数据档案的建设与开发利用拥有广阔的用户空间,为其建设提供了市场支持。
内部的主要不利因素:①缺乏理论指导与实践经验,开发难度大。与国外同期相比,我国的数据档案建设尚处于萌芽阶段。目前各级档案馆(室)仍是数据档案的首要建设主体,面对高速发展的网络和数据处理技术,档案学界对于档案的信息化整合与开发利用较为滞后。近30年有关数据档案研究的文献还不足100篇,而其中更多的是以医疗、环境、不动产建设等机构为主体的研究。目前档案界并未有关于数据档案的确切定义与详细阐述,还处于对泊来“概念”的探索阶段,未形成完善、成套的理论体系,亦无法有效指导实践工作,增加了数据档案的开发难度。②缺乏资金投入,开发动力不足。数据档案较传统档案而言,需要支付更好的开发、管理成本,包括购买专业的软、硬件设备,对工作人员进行专业培训,对系统的升级维护,支付数据库及数据处理平台的权限获取费用等。但由于目前我国数据档案的开发主体依然以国有、公益性质的组织机构为主,其资金来源多属于财政拨款,对于庞大的费用支出着实杯水车薪。③人员素质偏低,难以实践操作。认识方面,档案工作者对档案所面临的历史性发展机遇认识不足,面对数字化建设的高速发展,难有创新。能力方面,由于数据档案的建设是一项涉及多类学科、多种行业的综合性开发工作,对工作人员的知识及操作要求较高,而对于目前的档案工作者结构来看,普遍存在知识及年龄老化的问题,难以完成“大档案”的数字化整合。④数据资源受限,难以适应需求。数据档案建设的市场导向决定着档案数据信息来源应具备有用性、及时性、完整性和全面性等特征,以提供满足市场用户的个性化服务,增加市场占有率,获得预期收益,以谋求可持续性发展。但目前我国的数据档案建设存在着一对矛盾:非营利性开发主体的资源匮乏与商业性开发主体的资源封闭之间的矛盾。一方面,作为我国数据档案建设重要主体的非营利性组织机构,如各级档案馆(室),其馆(室)藏资源主要以传统档案为主,数量有限,信息陈旧,数据档案开发工作的数据来源也仅限于馆藏范围之内,馆与馆之间只构建了单个馆藏的数据库,形成了信息孤岛,难以获取市场用户的准确需求及庞大的数据信息。因此,其进行的数据档案建设也多以公益性、政策性的产品为主,难有较高的资金回流,从而限制其的发展投资成本,不良的产业链循环导致数据档案建设工作难以开展。另一方面,由于拥有足够的资金与先进的技术,商业性企业既是数据档案的生产者,又是数据档案的使用者,“买和卖”的双重身份使其对市场需求拥有天生的敏锐感,通过移动终端、处理平台等基础设施的构建,企业能够获取海量的源数据并对其进行“加工”和“增值”处理,所生产的数据档案产品也更能符合市场需求,拥有较高的预期收益,促进企业对“明星产业”的追加投资,从而有利于数据档案建设的进一步完善与发展。但由于互联网产业的崛起时间较短和企业性质方面的限制,许多年代久远或不能公开存储的档案信息依然处于档案机构的内部保管之中,而城市记忆、气候变化等数据档案的建设所需数据资源在时间和广度上应尽可能长远,这就需要各数据库之间的互通有无,但无成本的获取显然是不符合现实的,两类开发主体数据库之间的数字鸿沟阻碍了两者的共同发展。
3.2.3 数据档案内容的共词分析
本文通过利用Citespace、Ucinet等工具对数据档案的相关文献进行了共词、词频的可视化分析,以此结果生成的聚类分析图谱如图所示。由图2中可看出,我国数据档案的发展研究的涉及面并不十分广泛,主要体现在大数据和档案信息数字化方面。由图3中可看出,我国数据档案的发展起步较晚,自2006左右才开始出现零星的研究分布,直到2014、2015年才开始有较为突出的增长。由此可见,我国的数据档案建设正是随着大数据时代背景的到来而逐渐萌芽发展的,至今仍处于发展的起步阶段。较为突出的节点为:“大数据”、“档案管理”、“数据档案”、“信息化”、“数字档案”、“医院档案管理”等。
随着大数据和泛在知识时代的到来,以管理的视角看待数据档案建设,其内容必然围绕大数据的处理为中心进行,贯穿于其产业链的各个环节及产品的各个生命周期阶段。而由于其本身的“档案”属性,又使其在具体的开发建设中应以档案信息数字化作为管理工作的重点。而在目前我国数据档案的开发利用方面,医疗机构率先进行了基于大数据的个体化用户建档研究与实践。此类数据档案是对档案服务的实际效果测试和规律总结,以记录归纳的测试结果推论实际档案用户群体的一种验证服务。此类服务通过样本路径分析的方法,发现医疗活动中的线性关系,根据不同的路径和结果,探讨随着时间进行而出现的一连串可能的情境,以助利于医疗卫生事业的发展,如对某种疾病的样本分析,预测其在某一个体中的发展情况。更重要的是,通过规模的样本分析,这种个体数据建档模式,可以使人们发现并重视事物发展过程中的非线性情况,而这种看似偶然发生的现象,却可能会引发巨大的影响,如我们所知的“黑天鹅”或“蝴蝶效应”等。有关全球变暖效应的辩论,便是一个很有名的例子,许多科学家在全球变暖效应发生的早期阶段,并没有注意到这件事,因为他们并未将气温变化完整地进行数据建档归纳,在收集整理中他们把温度突升从样本中剔除,认为这件事不可能再度发生,但科学家们忽视了温度突升虽然少见,却会对冰帽的融化产生巨大的累积性效果。由此可见,以“档案”的本质属性为依托,保持其完整的原始记录性,数据档案的建设把过去的历史视为单一的同质型样本,并且相信观察过去的样本后,我们对未来的知识即可大增。
图2 我国数据档案发展关键词共词知识图谱
图3 我国数据档案发展的时间分布图
4 建议
4.1 建立档案与数据资源管理的标准化体系
档案和数据资源建设实行的是以政府指导、档案部门负责、各方面共同参与的工作体制[6],虽然我国颁布与数据档案建设相关的政策性文件,设定了宏观的发展目标,但仍缺乏全面、统一的纲领性指导标准。各部门、机构之间配合松散,不能形成合力,难以推进档案和数据资源的进一步建设。因此,应根据建设中的实际情况,建立一个在全国范围内统一的、标准化的、规范化的,具有较强实践指导作用的数据资源建设管理体系,各部门、机构认真履行监督管理职能,努力探索数据档案的发展方式和途径。
4.2 分清市场导向,优化用户体验
以市场化为导向的数据档案建设,可以通过增加财政拨款或接受企业投资的方式,获得足够的资金支持。升级产业链结构和优化市场细分能够提高预期收益。由于各类移动终端的迅速普及与不断升级,海量的第一手数据是通过线上获取,对于不断细化的市场用户群体,可以为互联网上的用户建立“数据档案”,分别从静态属性、动态属性和环境属性对个体用户进行画像,诸如年龄性别、兴趣爱好、使用的APP信息等, 以优化不同用户的服务体验。
4.3 加强数据档案中心建设,建立产业联盟
随着国家大数据、智慧城市等建设的不断推进,数据档案的建设可以区域性的数据档案中心为依托,将具有保存价值的数据进行统一保管并进行开发利用。但由于海量数据只掌握在少数几个互联网巨头手中,因此,要加强各数据平台之间的合作,通过建立协调机构和协调机制,使数据档案建设的产业形成联盟,互通有无,明确分工,着重挖掘数据的商业价值,实现档案信息的增值,将上、下游和相关产业同时发展,实现产业集群,拓展市场份额,增强市场竞争力。