APP下载

数智时代档案数据的“重做”与“重塑”

2024-11-26冯惠玲

档案与建设 2024年10期

摘 要:人工智能时代,AI参与电子文件管理的范围和深度不断扩展,电子文件管理不仅要面向各类人群的需要,也要适应人工智能的逻辑和需求,由此引发千百年来为人类保管和提供利用文件档案的管理体系发生某些底层逻辑、原理和方法的变化,包括文件档案数据及其治理的内涵、收管范围、分类标注等,进而引发有关理论、方法和技术的历史性重塑。

关键词:电子文件管理;档案数据;人工智能

分类号:G276

今年的电子文件管理年会在合肥召开,我想当地的档案工作者应该会有一些感慨。中国电子文件管理启动之初,安徽省档案馆是先头部队,当时还是副局长的黄玉明借鉴澳大利亚维多利亚州电子文件管理策略(VERS)主持开发了档案行业标准《文书类电子文件元数据方案》,并先期启动安徽省档案馆的电子文件管理系统建设和管理实践,最早尝试用封装方法保证电子文件的真实、完整、可靠、可用。那时世界各国档案界的目标主要锚定在保存电子文件的原本状态存在。不过十几年时间,电子文件在以非结构化文件为主体的基础上大范围接纳了各项社会活动中形成的半结构化、结构化数据,运用AI进行管理的探索不断涌现,电子文件管理的细颗粒化和智能化势头日益强劲,赋能国家经济社会发展的思想也逐渐明朗,表明了电子文件管理理念和思路的时代演变与进化。

变化是这个时代的符号,既快又多还激烈,新问题层出不穷,“未来已来”表明预言转变为现实的节奏正在加快。去年年会我提出了一些向大家讨教的问题,今年还想说3个比较基础的问题,为大家面向现实和不远的未来,面向人群和AI的电子文件管理思想和实践交流增添一点话题。

1 关于档案数据治理是什么?

前不久看到代国辉研究员发布的一则视频提出这个问题,实质上问的是什么是档案数据。他列举了5种概念,问大家认同哪一个:第一种是指档案业务数据治理。第二种指数据治理延伸到归档之后的档案阶段,他认为这两种本质上是数据治理。第三种是数据类档案,特别是结构化数据的治理。第四种是用数据治理的方法论优化档案管理,他认为这两条本质上是档案治理。第五种指档案和数据一体化,即结构化和非结构化数据的融合治理。这是个有趣的问题,值得大家分析琢磨。在我看来,它们各有面向,又交叉重叠,并非非此即彼,这几种看法让我们看到了档案数据及其治理的不同侧面或维度,不同切入点和着力点,很有意义。近几年质疑档案数据概念和领域“泛化”的声音少了,越来越多的档案人打开大门,接受数据的档案性质和广泛来源,包括来源于不同活动中的不同阶段,尽管对其确切内涵还有不同认知,重要的是用开放思维接纳并探讨档案数据的文件档案属性和管理。

2 我们需要收集归档哪些档案数据?

档案数据赋能经济社会发展,赋能新质生产力,前提是要质优量足。在智能时代,哪些数据值得收集保存很难说清楚。除了人工智能生成数据的真实性与价值判定之外,还有不少值得思考的新问题。我看到OpenAI最早的10名员工之一Pieter对于现存数据缺陷的一种说法,对于我们认识和收集档案数据有启发。他说,今天我们用的所有数据都是人类写下来的,但是人类是要先做很多思考才有可能形成一些结论,AI没有看到人类的思考过程,只看到了思考结果,只有人类所有的思考过程都记录下来或者说出来,这样AI才能根据这些数据形成真正的推理能力。所以我们的数据看上去很大,但是缺失了非常大的一个部分。Pieter从AI科学家的视角提出的这个问题在我们的数据归档管理中可以有所思考。什么是结果数据?什么是有价值的过程数据?尽管这个说法对于档案人并非全新,但是搞明白如何判断和识别却很不容易,具体到各个机构更是十分复杂和艰难的选择。

从数据内容看,AI的飞跃式发展也提出一些新的方向。比如被称为AI教母的李飞飞将人类智能归结为语言智能和空间智能,她认为二者都非常重要,在大语言模型纷纷问世之际,她奋力面向空间智能创建大世界模型,让AI在3D世界中感知和生成,使人工智能不仅能思考,还能行动。而训练这一类人工智能需要更多图像和三维数据,以便根据3D时空中物体、位置和交互进行推理。目前这类数据被纳入管理的还很少,需要引起我们的关注,收入我们的视线和收管范围。

3 一些管理原理、理念的变化

比如,在信息资源管理中,包括图书、档案、数据管理等,分类是基础性工作,以往的分类基本上遵循概念之间的上下位或同位关系进行演绎和归纳,形成逻辑严密的分类体系。现在用于训练 AI 的数据也要分类,李飞飞认为“视知觉依赖于分类”,但是这个分类的逻辑似乎和我们传统的信息分类不同,是根据现象、物体的多重特征划分和归类,非常复杂。她创办的视觉数据库ImageNet是AI产业公认的重要基础设施,初始版本收录的15,000,000张图片就涵盖22000个类别,其类别数量之多远超过去的文本分类体系。我不大清楚她是什么样的分类标准和方法,只知道她分类的目的是教会AI认识各种空间事物,比如什么是一棵树一条狗。我国档案数据管理也将遇到面向AI的问题,因为社会各领域将普遍研发和使用人工智能,不仅有综合大模型,也有各个行业的垂类模型,不仅有语言模型也会做空间模型,尽管归档数据和AI训练数据可能不尽相同,如果一部分档案数据能够成为便于AI理解和训练的高质量基础数据,就能在各行业智能化进程中产生实际赋能。

未来的文件档案管理不仅要面向人,也要面向AI,有些可能是通过AI来服务于人,所以,我们不仅要理解各种人群对电子文件/档案数据的需要,也要理解AI逻辑和训练需求,这种新的需要会不会使我们千百年来为人类保管和提供利用而形成的文件档案管理体系发生某些底层逻辑、原理和方法的变化呢?这样的问题已经开始不期而至了。前几天我和一位著名经济学家聊天,他说,数字时代很多经济学原理遭遇颠覆性挑战,一系列新的经济学理论将在这个时代出现,我想信息管理、电子文件管理何尝不是如此?前些年有个说法,所有行业都可以在互联网上重做一遍,现在的说法是所有行业都可以用AI重做一遍。此话不假,今年的诺贝尔化学奖和物理学奖花落AI专家就说明化学和物理学已经开始重做了,档案管理、电子文件管理也注定不会例外。“重做”就是“重塑”,这个过程中伴有大量的否定、改变和创新,在座的不少人此生经历了两次历史性“重做”,可以说是辛苦并幸运的,这是这一代人的宿命和使命,我们只有勇于面对,在“重做”中书写文件、档案、数据管理的新篇章。

*此文为作者2024年10月19日在安徽合肥的“第十四届中国电子文件管理论坛”上的致辞。