档案数据化之浅析:档案数据大脑的构建
2019-05-24刘永庞宇飞荆欣
刘永 庞宇飞 荆欣
摘 要:本文基于数据智能的理念,提出了档案数据大脑的概念。在对数据时代档案数据大脑构建的必要性和可行性论证的基础上,对档案数据大脑的若干概念和功能进行了重新解读,并对构成档案数据大脑的基本单元——档案数据单元的构建进行了初步分析。最后,探讨了基于档案著录规则的数据单元解构方法和档案数据单元语义与脚本组织方法,并对档案数据大脑的构建和数据大脑功能的实现方法给出了初步设想。
关键词:档案数据化;数据大脑;档案管理
Abstract: Based on the concept of data intelligence, this paper proposes the concept of archival data brain. On the basis of the necessity and feasibility of the data brain construction of archive in the data age, the concepts and functions of the archive data brain have been reinterpreted, and the construction of the basic unit of archive data, the archive data unit, has been carried out initial analysis. Finally, this paper discusses the data unit deconstruction method based on the archival record rule and the archival data unit semantics and script organization method, and gives a preliminary idea for the construction and implementation method of the archive data brain.
Keywords: Archive dataization; Data brain; Archive management
引言
在IT(Information Technology)向DT(Data Technology)過渡的进程中,数据化和数据智能的时代特征愈来愈明显。随着智能化进程的加速,数据赋智、软件赋值、软件赋能等新提法不断出现,表现出数据和支撑数据的软硬件之间的驱动性或依附性关系逐渐发生逆转的表征,或显现出由数据和软硬件的融合浸透逐渐向软硬件的数据依附方向演化的态势。
如果将“软硬件体系与环境”统称为“系统”,则存在数据与系统依附性逆转的发展脉络,即存在由数据的系统依附到数据的系统独立,到数据的系统融合,到系统的数据渗透,再到系统的数据依附的转换过程。这种逆转关系可简单描述为由“系统智能”向“数据智能”转换的关系。可以看出,数据与技术已经逐渐成为不可分割的有机整体[1]。
就档案数据化来讲,档案数据管理的应用技术老化问题愈来愈严重。可以预见,传统的把档案数据仅作为IT加工处理的对象的思维和管理方式会在不久的将来遭受严重冲击;孤立的档案数据可能遭遇不能被处理和加工的危机;档案自身也存在因数据智能的滞后,成为尘封的历史或者被遗忘的记录的可能;更有甚者,无档可归、无档可管和无档可查的被动局面也会逐渐显现。因此,数据化和智能化的紧密融合、数据和技术相互嵌入就成为档案信息化发展的必然路径。为此,本文提出档案数据大脑概念,尝试探讨档案数据大脑构建的必要性、可行性和构建思路。
1 档案数据大脑概念的提出
1.1 数据智能时代为构建数据大脑提供推动力。近年来,人工智能(AI, Artificial Intelligence)发展和应用速度不断加快。美国计算机学家约翰·麦卡锡(John McCarthy,1927.9.4~2011.10.24)等人于1956年在美国达特茅斯学院(Dartmouth College)研讨会上正式提出了人工智能概念[2],概念涵盖了问题求解、专家系统、机器学习、模式识别、深度学习等机器模拟人脑的智能技术。目前,人工智能应用比较典型的成功案例有SIRI、阿尔法狗和无人驾驶汽车等。
人工智能的快速发展离不开数据智能的支撑。通过文献调查发现,数据智能正逐渐成为机器智能的核心。目前,数据资源对智能技术的影响在逐步加大,朝着更加紧密融合的方向发展。一些专家认为,数据正逐渐成为智能技术不可分割的重要组成部分;部分专家甚至认为,智能技术的核心是数据而非技术本身,没有数据,智能技术的作用就会大打折扣。这说明了数据赋能对技术的重要性。
事实上,信息技术本身已经呈现出智能化、智慧化、拟人化和自我进化的特征[3]。世界知名高校如美国麻省理工大学和顶尖科技公司如谷歌、微软等,都在不断探索和研究机器学习和人工智能领域,试图给机器赋予类人的思维机理与行为特征,通过数据赋智、赋能、赋值,以创造更大的经济与社会价值。
上述分析可以看出,数据业的智能化和智能业的数据化融合趋势已非常明显。内容产业深度融合智能技术,通过构建数据大脑给数据赋智,才是可持续发展的明智选择。
对于档案信息化而言,数据智能应用同样是促使档案数据大脑构建的动力因素,包括政务微博因素[4]、数据量增长提速因素[5]、数据智能滞后导致的新信息孤岛因素等[6][7][8][9][10][11]。
1.2 智慧化建设需要档案数据大脑提供支撑力。档案数据大脑构建和智慧化建设具有互相推动的作用。智慧化建设的代表之一是智慧城市建设。智慧城市的概念最早于2008年由IBM公司正式提出[12],指的是城市发展的高级形态,其标志是新兴信息技术在城市建设中取得广泛和深入应用。
档案是与民生和政府工作密切相关的重要信息资源,智慧+档案的建设对智慧城市的发展具有重要作用。一些学者认为,智慧档案建设主要在于借助技术手段对档案进行智慧化管理并萃取智慧化信息,实现档案的智慧化管理与服务[13]。
智慧和大脑是紧密相关的概念。显而易见,智慧档案的着眼点和落脚点是智慧,要实现智慧贯通档案管理服务全过程就离不开数据大脑的构建和支撑。建立档案数据大脑,依托数据大脑的高度技术集成性和智能性,能更好地感知、识别、鉴定、挖掘、采集、智慧化转换与服务,为智慧城市建设提供数据大脑支撑力。
1.3 构建档案数据大脑的技术条件趋于成熟。目前,档案工作已逐渐远离人工操作方式。档案信息资源的技术植根性、来源多样性、存量的数据化和增量的网络化等特质越来越突出。档案数据已具备从数据内容属性向数据智能或数据大脑属性转换的技术条件。所以,引入档案数据大脑的概念,给档案数据赋智和赋能,更好地挖掘和实现档案的价值,促进档案工作的转型升级,具有新时代的现实意义和未来的前瞻意义。
随着相关技术手段快速升级,数据支撑环境越来越健壮,档案数据大脑的构建和功能实现成为可能。档案数据大脑构建所需技术,主要包括人工智能、大数据、云计算、云存储、数据库系统和商业智能等。其中,人工智能技术的发展与应用给档案数据大脑功能的增强提供了更大的空间。
2 档案数据大脑相关概念分析
2.1 关于档案数据大脑的现有认识。根据现有文献调查,相关主题和研究多集中于智慧城市建设方面,少数涉及服务模式与服务水平升级、数据时代下大数据与档案的关系等内容。有的认为城市数据大脑是一个城市的人工智能中枢,融合多种先进的技术手段,对宏观层面的城市生命体起到预测感知控制判断作用[14];也有的认为数据大脑是中枢系统,是一个数据驱动的智能体[15]。上述观点具有一定的代表性。
相关文献对数据大脑的表述,其共性是将不同适用情境和学科领域的数据大脑总结为中枢系统。结合档案学自身理论和实际档案工作的特点与规律,对档案数据大脑的现有认识可以归纳为“档案智能中枢系统”,即依托大数据、云计算、海量信息检索技术以及其他相关人工智能技术,结合“互联网+档案”与数据化思维,整合汇聚档案产生主体、档案利用主体和档案本体的相关原生数据信息,进行分析计算和存储,构建接收存储原生档案数据、优化档案资源配置、档案数据智能挖掘、档案价值增值、优化档案管理模式与提高档案服务利用绩效的智能中枢处理系统。
以上学术认同与生命科学领域和计算机领域对于大脑概念、功能、定位和作用的共性认知基本一致。但视数据大脑为“智能中枢系统”的认识存在两个问题,即数据的技术依赖问题和数据的技术割裂问题。这种理解与前文分析的由技术依赖到数据技术融合,再到数据依赖的发展演化趋势相悖,故还需作进一步探讨。
2.2 關于数据内涵演化的再认识
2.2.1 数据资源的再认识—由数值到数据体功能化。对数据(Data)的传统认识或者狭义上的认识,多数情况下指的是“数值”或“数字的值”,有人理解成数据值或数据内容。换句话讲,数据在多数情况下被认为是人物、事件、事实、对象和概念等的值或对其进行表示、表达或描述的内容。这些认识犹如人们会把数据理解成文档、资料、记录、记忆、文件材料、档案材料、案卷材料、史料、文献、报刊资料、报告、手稿等的内容一样,没有从数据体的视角将数据结构化和功能化加以重新认识。
2.2.2 档案数据的再认识—由内容集合到数据单元。大信息观或广义信息观将信息作为战略资源看待;广义的信息资源观将信息内容及其相关软硬件环境一起看待。类似地,狭义的档案观主要注重资源内容层面的理解;广义的档案观则更注重资源集合层面上的理解。从档案数据资源内容上看,档案是工作活动的原始记录,但是记录的内容需要通过其他各种手段,才能够得到展示和运用。从档案数据资源功能层面上看,如果原始活动记录本身也包含一定的结构和功能,且能够被调用和运行,这样的记录可以看作具备了档案数据的脑功能。
从档案数据大脑的角度认识数据,可以引入数据对象的概念。数据对象是带有一定结构和功能的数据单元。数据对象可大可小。宏观上讲,一切均可视为数据,包括各类系统和应用程序、各类软硬件环境等,甚至可以把宇宙、自然和社会进行分类并作为数据对象进行处理;微观上讲,数据对象是对事物结构化和功能性的描述,是数据大脑的最小数据单元、基本数据单位或数据有机体。
2.3 关于大脑内涵的再认识
2.3.1 大脑概念的一般认识。在生命科学领域,人的大脑是人类对感知信息进行加工处理并产生智慧的器官 [16]。大脑控制着人体其它器官,在不同的系统之间发挥着协调组织的功能。
在计算机领域,大脑被认为是一台设备的CPU(Central Processing Unit)[17],具有存取、解释并执行命令、完成各种运算和控制并满足使用者需求等功能,这也是最初计算机被称为电脑的原因。
2.3.2 大脑概念的重新认识。本文基于档案管理视角,认为数据大脑的概念可以借鉴生命体大脑和计算机大脑的原理,但不能简单类推,或者不能简单地依据人脑和电脑,将数据大脑看成数据的大脑或者处理数据的大脑。持这种理解,无异于将数据和程序截然分开,孤立地看待数据和程序,也就偏离了本文关于数据智能概念的最初认识。
对此,本文将数据大脑(Data Brain)看成数据有机体集合,即数据大脑是由数据单元(Data Unit)组成的数据有机体集合,该集合包含了数据的“值”和关于数据数值或数据内容的各类“脚本”。换句话说,数据单元是构成数据有机体集合(数据大脑)的基本单位或数据有机体集合最基本的结构和功能单位,是数值和脚本的有机体,由包含数值在内的关联脚本构成。
数据单元可看成包含数据的子例程子程序或脚本的最小数据块或数据模块,是数据有机体的最小单元。该单元可以通过各类调用以关联和处理不同的数据内容。数据单元被调用时,其执行的功能包括数据共享、数据协同、数据整序、数据应用和价值实现等很多方面。
数据单元也可称为数据机、数据体、数据链、数据包、数据胞、数据细胞(Data Cell)、数据小脑、数据模块或数据载体等,本文没有对这些术语进行称谓上的认定,留作以后进一步探讨和推定。
2.4 档案数据大脑概念和功能。档案数据大脑是指由档案数据单元组成的档案数据有机体集合。随着技术与数据的深入融合,档案数据有机体有望逐步发展为档案数据智能体(Achieves Data Agent)。
智能体在人工智能领域被视为相对独立的软硬件代理体。自动搜索引擎、智能交互分析引擎、智能识别与标注、智能语音、智能画像、智能质检、机器人水军、机器人作者、机器人翻译、机器人客户服务、机器问答、自动驾驶、智能制造等等被称为数据智能[18]的技术,智能体是其核心。本文主要针对档案数据单元的概念、功能和组织进行讨论。
2.4.1 档案数据单元的概念。档案数据单元(Achieves Data Unit)是指由档案数据内容及其关联程序代码(Code)或脚本(Script)共同构成的具有特定结构和功能的档案数据有机体,是档案数据大脑的基本数据单位,或者称为档案数据小脑。
2.4.2 档案数据单元的功能。档案数据单元应具有相对独立的数据处理能力,有输入、存储、处理、输出四个基本功能。档案数据单元可以通过调用运行并实现这些功能。数据单元智能化程度取决于功能定义的智能化程度,包括感知、采集、运算、挖掘、学习、画像、问答、展示、场景化和可视化的各类算法等。档案数据单元的有效组织可以具备数据的自组织、自描述、自更新、自处理、自适应、自学习、自评估和自进化等方面的能力。
2.4.3 档案数据大脑的功能。档案数据大脑的功能是档案数据单元在智慧档案大数据平台上的系统化功能整合,是智慧档案馆建设的核心,在智慧城市大脑建设和智慧行业大脑建设中具有独特地位。如果能够充分利用人工智能手段对平台和数据单元加以强化,档案智能化管理和智能化服务的能力将会大大提升。
档案数据采集能力方面。档案网络信息采集、特殊格式数据采集、复杂关联数据采集等还是当前的瓶颈问题。有了技术融合也就消除了技术滞后,同时强化了档案数据采集能力,上述瓶颈问题也就随之解决。在此基础上,通过档案数据的智能化移交、归档、接收、征集等操作,强化档案数据资源智慧化建设能力。
档案数据处理能力方面。档案数据大脑建设与各行各业的数据大脑建设同步进行,减少了技术落差,也具备了档案大数据处理能力,如机器智能、模式识别、数据挖掘、数据建模、数据聚合、数据共享、多维分析、海量处理、机器学习与自然语言处理等。
档案数据管理能力方面。实现网络化、智能化和全息化的档案行政管理、档案业务管理、档案分类整理、档案价值鉴定、档案数据安全管理、档案信息统计和实体档案管理,为档案数据管理能力逐步迈上快车道提供数据智能推动力。
档案数据服务能力方面。档案数据处理能力的提升是档案数据服务能力升级的基础。通过智能化、场景化或可视化的数据服务,实现档案编研、咨询和利用的便利化,以扩大和提升档案事业的影响力。
3 档案数据大脑构建与功能实现的初步设想
3.1 档案著录规则的数据单元解构。档案数据单元的构建有多种方式,其中一种方式是基于著录规则的XML转换。元数据描述一般有两种不同的形式,一是格式化数据描述;二是脚本化数据描述。两种描述方式可以相互转换。1985年颁布的《档案著录规则》(GB/T 3792.5-1985),将档案的著录项目分为七项,包括题名与责任说明、稿本与文种、密级与保管期限、时间、载体形态、附注与提要、排检与编号等,本文列举著录格式示例,如图1所示。
依据相关文书档案目录数据交换格式与著录项目细则的暂行规定,简化后的文件级数据xml转换格式脚本示例,如图2所示。
3.2 档案数据单元语义和脚本组织。档案数据单元语义和脚本组织方法有很多种,其中一种是运用W3C的资源描述框架(RDF, Resource Description Framework)按XML句法表达档案数据语义和实现数据功能。XML标准一般包括可扩展标记语言(XML,eXtented Meta Language)、文档类型定义(DTD,Document Type Definition)、可扩展样式语言 (XSL,eXtensible Stylesheet language)、文档对象模型(DOM,Document Object Model)和可扩展链接语言(XLL,eXtensible Links Language)等定义,分别具有数据语义描述与存储、标识解析、输出发布、数据更新、链接定位等功能。
通过基于XML的档案数据单元语义和脚本组织,形成档案数据的结构化和功能化基本单元,完成档案数据大脑最基本的数据有机体的构建。产生的档案数据单元可以被HTML语言或其他系统程序调用。XML自身也可以被直接调用,使赋予的所有功能得以實现。
在建立档案数据单元的基础上,可以利用本体库和规则库方法,依据档案数据单元构建知识图谱,从中提取知识元并形成档案知识库,通过知识推理提供更加智能化的档案信息服务。这一问题和档案内容的数据单元解构问题拟在后续的研究中加以探讨。
3.3 档案智慧服务平台的功能构思。构建的档案数据大脑智慧服务平台,以整合人工智能应用技术为核心,支持批量采集、实时采集、交互采集及互联网爬虫采集等方式,汇集各政府部门、事业单位、行业系统、局馆节点的各类数据及互联网数据并进行结构化和功能化数据单元重构。以此为基础,将清洗、转换处理后的档案数据单元加载到档案数据大脑系统中,形成智慧化的跨界档案数据交换共享、数据智能处理、全息数据分析、智慧编研和智能咨询服务等方面的系统能力。
*本文系国家社会科学基金项目“智慧城市背景下的档案信息化研究(项目编号:14BTQ070)”成果之一。本成果受航空经济发展河南省协同创新中心、河南航空经济研究中心的资助。
参考文献:
[1]程梦瑶.百分点:探索數据智能的未来进化[J].软件和集成电路,2017(07):94-97.
[2]邹蕾,张先锋.人工智能及其发展应用[J].信息网络安全,2012(02):11-13.
[3]闫志明,唐夏夏,秦旋,张飞,段元美.教育人工智能(EAI)的内涵、关键技术与应用趋势——美国《为人工智能的未来做好准备》和《国家人工智能研发战略规划》报告解析[J].远程教育杂志,2017,35(01):26-35
[4]宋香蕾.政务微博档案化模式研究[J].档案学研究,2017(01):51-56.
[5]向立文,李培杰.档案部门实施档案大数据战略的必要性与可行性研究[J].浙江档案,2018(10):10-12
[6]邹永利,王春强.解析我国电子政务中的“信息孤岛”现象[J].农业图书情报学刊,2008(03):17-21.
[7]张敏,霍朝光,吴郁松.我国公共图书馆数字平台的信息孤岛问题研究——基于社会化网络的分析视角[J].图书馆建设,2015(11):77-82.
[8]郑元元,罗艳.智慧图书馆构建过程中“信息孤岛”问题探究——基于“互联性”的视角[J].图书馆工作与研究,2018(06):10-16.
[9]李哲.“档案信息孤岛”现象的产生与消除[J].兰台世界,2010(16):9-10.
[10]刘迁.云环境下档案信息孤岛问题的治理研究[J].兰台世界,2015(14):13-14.
[11]蒋美玲.档案信息共享的边界问题研究[J].档案学研究,2018(05):102-106.
[12]任亮,张海涛,魏明珠,李题印.基于熵权TOPSIS模型的智慧城市发展水平评价研究[J/OL].情报理论与实践:1-12[2019-02-20].http://kns.cnki.net/kcms/detail/11.1762.g3.20190102.1825.002.html.
[13]归吉官,刘扬.智慧档案兴起的背景、研究现状与趋势[J].中国档案,2018(02):76-78.
[14]孔万锋.杭州“城市数据大脑”:交通治堵的探索和实践[J].公安学刊(浙江警察学院学报),2018(01):54-58.
[15]刘柏嵩,豆洪青,杨春艳.从数字化到数据化——关于“图书馆大脑”的思考[J].数字图书馆论坛,2018(03):2-6.
[16]梁夏,王金辉,贺永.人脑连接组研究:脑结构网络和脑功能网络[J].科学通报,2010,55(16):1565-1583.
[17]芮雪,王亮亮,杨琴.国产处理器研究与发展现状综述[J].现代计算机(专业版),2014(08):15-19.
[18]郭涛.工业互联网不能没有数据智能[N]. 中国信息化周报,2018-10-15(023).
(作者单位:郑州航空工业管理学院 来稿日期:2019-02-20)