APP下载

档案事业与新技术的双向融合

2024-09-20赵跃杨建梁司徒凌云苏焕宁潘未梅

档案与建设 2024年7期

主持人语:以大数据、云计算、区块链、人工智能为代表的新兴技术浪潮滚滚而来,大有变革千行百业之势。在此背景下,强调档案事业与新技术的双向融合,既有助于推动档案事业的现代化发展和升级,也有利于新兴技术在实际场景中的落地应用。档案事业与新技术的双向奔赴、相互融合必然会激发出新的活力与生命力,带来新的机遇与挑战。当前档案事业的发展存在哪些问题?新技术给档案事业的发展带来了怎样的影响?档案事业与新技术的关系是什么?档案事业与新技术如何双向融合、相互赋能,以更好服务国家战略需求?新技术融合是否有助于吸引档案学生、培养档案人才?此次对谈围绕上述问题展开,对谈成果并非最终结论,旨在为档案事业与新技术的双向融合和共同发展提供一些思路,为档案事业从业人员及新兴技术研究人员提供一些启示。(司徒凌云,南京大学信息管理学院)

关键词:档案事业;新兴技术;人工智能;区块链;档案管理;档案开发;南海档案

▍赵 跃:

在“数字中国”战略引领下,我国档案事业正处于转型升级和创新发展的重要机遇期,数字化转型也成为地方档案工作应对新环境新趋势的必然之举。综合档案馆作为地方档案工作数字化转型的重要参与者,其转型进程直接影响整个地方档案工作数字化转型的全面推进,但目前很多综合档案馆在转型推进当中面临诸多困境和难题,亟待发现症结所在并寻求解决之道。

通过调研,笔者发现当前地方综合档案馆在推进档案工作数字化转型进程中存在一些关键的影响因素。第一个因素,也是最关键的一个因素,是人才因素,领导型人才和专业复合型人才是未来档案工作数字化转型的关键。第二个因素是资金因素,数字化转型是一个需要长期、大量投入的项目,但目前地方档案部门能够获得的资金支持非常有限。第三个因素是观念层面的因素,总体上看地方档案部门思想还是有点僵化和保守,还没有找到既能确保安全又能高效开放利用的路径,且对数字化转型的整体认识还不足,缺乏战略思维。第四个因素是理论层面的因素,数字化转型缺乏理论的支撑。到目前为止,档案工作数字化转型的一些基本的理论问题,包括什么是、为什么和怎么做等重要问题都没有得到系统研究和解答。第五个因素是系统建设的问题,对于电子档案的管理,前后端系统对接工作成本高、难度大。档案业务系统(数字档案馆 / 室系统)建设当中,有一些线下档案业务流程转到线上之后,因功能不完善还未真正发挥作用。另外,线上业务建设仍停留在收存管用等功能。第六个因素,技术层面的因素,地方综合档案馆的数字技术应用方式和场景还比较单一,未能从转型角度重构原有业务。数字化转型涉及的系统和软件的更新换代和改造升级问题仍然是技术困扰之一。第七个因素,业务层面的因素,基础业务底子薄,包括开放审核工作不到位、数字化质量参差不齐等。第八个因素是组织层面的因素,组织准备度不足,目前地方综合档案馆的职能定位、岗位设置、部门职责划分无法满足数字化转型的要求,尤其是不能满足数据治理和信息开发利用的需求。此外,还有安全层面的因素,如数据安全风险大;利用层面的因素,如数据共享利用难等诸多因素。

关于档案事业与新技术的融合问题,笔者认为档案部门应保持清醒的头脑,以业务需要为出发点,哪些技术能够真正为档案业务工作提质增效,那就要敢于接受和使用,当然也得考虑技术应用的成本效益问题。关于大语言模型为代表的人工智能技术对档案学的影响,笔者觉得这可能会是加速推进企业档案部门知识服务真正落地实现的机会,并且对档案馆智库功能的发挥起到一些支撑作用。所以,从档案学研究的角度来说,或许可以重点关注一下如何结合大模型和档案领域小模型来更好地实现知识服务和智库建设。对于区块链技术的落地问题,笔者认为区块链技术仅仅是用来保障档案真实的一种方案,是否是最佳方案,尚无定论,但档案部门不能把保障档案真实性这一职业追求,仅仅寄托在区块链技术上。关于当前档案学人才培养面临的问题,笔者认为最大挑战就是数字化转型的冲击,最大的问题就在于档案界被这种冲击伤得不轻。在数字化转型的冲击下,档案界还没有很快地找到档案学未来的方向和应对冲击的对策。到现在为止,学界都依然抱着一种侥幸心理,认为档案学教育还没有到一个必须求变的临界点。但如果一定要以档案部门对人才需求的角度去看的话,很多高校目前培养的档案学专业人才已经有点跟不上时代发展了。现有的知识体系、课程体系都有点陈旧,已经到了档案学教育变革的临界点了,需要进行新的教学方式方法和课程的设计。

▍杨建梁:

第一,大语言模型的崛起与变革性影响。大模型与档案事业正在同向发展,同频共振。大语言模型的出现和发展为人工智能领域带来了深远的变革,特别是在任务处理、模型泛化和交互模式方面。大语言模型为人工智能领域带来的系统性变革主要体现在三个方面。首先是从判别到生成的任务变革。传统的人工智能任务多为判别任务,例如人脸识别和档案审核等。而大语言模型则主要执行生成任务,如根据输入生成相应的文本,且生成任务的复杂性和难度远高于判别任务。通过生成任务,大语言模型可以实现档案的多维标注和语义分类。其次是从单一到通用的变革。传统的人工智能模型通常针对特定任务进行训练,缺乏泛化能力。而大语言模型则具有强大的泛化能力,可以处理多种任务,如翻译、问答等。这种通用性使得大语言模型有望成为通用人工智能(AGI)的基础,能够在各个领域达到人类智力水平。最后是从训练到交互的模式变革。传统的人工智能模型需要大量高质量的标注数据进行训练,而大语言模型则通过交互模式进行任务处理。用户可以通过提示和增强方式与模型进行交互,使其根据需求生成相应的结果。这种模式变革大大简化了模型的使用过程,提高了效率。

第二,大语言模型与档案事业的相互赋能。大语言模型和档案事业之间存在着相互赋能的关系,前者提升了档案管理和开发的智能化水平,后者为大语言模型提供了宝贵的数据资源。大语言模型在档案业务中的应用主要体现在智能鉴定、开放审核、语义组织和库房管理等方面。例如,通过大语言模型的语义理解和生成能力,可以实现档案的智能分类和标注,提升档案管理的效率和准确性。大语言模型能够自动识别和提取档案中的关键信息,生成详细的标签和分类,从而简化档案管理流程,减少人工干预,提高工作效率。在档案开发利用方面,大语言模型也发挥着重要作用。例如,通过大语言模型,可以实现智能编研、知识工程和数据化开发等任务。大语言模型能够从海量档案数据中提取有价值的信息,进行知识抽取和可视化展示,提升档案开发利用的深度和广度。通过大语言模型的知识图谱构建和语义分析能力,可以将分散的档案信息整合成系统化的知识体系,便于用户进行深度研究和应用。档案部门也能够为大语言模型的发展提供重要支持。大语言模型的训练需要大量高质量、可信的数据,而档案部门正是高质量数据的重要来源。通过提供高质量的档案数据,可以提升大语言模型的训练效果,增强其在特定领域的应用能力,帮助模型更好地理解和处理档案相关任务。

第三,大语言模型在档案领域的应用实践。大语言模型在档案领域的应用实践中展现了强大的文本理解和生成能力,显著提升了档案管理和开发的智能化水平。大语言模型在档案管理中的应用,极大地提高了档案的处理效率和准确性。通过智能化的文本理解和生成能力,大语言模型在档案审核、标签生成和知识问答等方面展现了强大的应用潜力。利用大语言模型的文本理解能力,可以实现档案的智能开放审核。传统的开放审核需要大量标注数据,而大语言模型通过无监督学习和上下文理解,可以快速适应不同场景,提供高准确度的审核结果。大语言模型能够自动识别档案中的敏感信息和隐私数据,进行智能化审核和筛选,确保档案的开放性和安全性。大语言模型还可以用于档案标签的生成和知识发现。例如,通过大语言模型,可以自动生成档案的标签,提取档案中的实体关系,提升档案管理的智能化水平。大语言模型能够根据档案内容自动生成详细的标签和分类,帮助档案管理人员更好地组织和检索档案信息。例如,通过检索增强技术,可以为大语言模型提供参考资料,使其回答更加准确和可信。大语言模型能够根据用户的提问,自动检索和整合红色档案中的相关信息,提供准确详尽的回答,帮助用户更好地了解和研究红色档案。

第四,大语言模型在档案领域的挑战与未来展望。尽管大语言模型在档案管理中展现了巨大的潜力,但其应用也面临着不可信、不可靠和不可用的挑战。通过信任数据、信任参考和信任推理等方法,可以有效解决这些问题,并进一步提升大语言模型在档案领域的应用效果。大语言模型在生成文本时,可能会出现AI幻觉,即生成不真实或不准确的内容。为了解决这一问题,可以通过信任数据、信任参考和信任推理等方法,降低AI幻觉的可能性。例如,在训练模型时使用高质量的数据,在生成过程中提供真实的参考资料,确保推理过程的可信性。大语言模型生成的结果具有随机性,同一问题的回答可能会有所不同。为了解决这一问题,可以通过人类反馈强化学习和参数设置,控制生成结果的随机性,提高模型的可靠性。大语言模型的训练和部署需要大量计算资源,而档案部门通常资源有限。为了解决这一问题,可以采用更小规模的模型,结合档案业务的具体需求进行微调,降低计算资源的消耗,提高模型的可用性。未来,大语言模型可以通过多智能体机制,实现更复杂的任务处理。随着大语言模型技术的不断进步,档案事业将实现更高水平的智能化和信息化。

▍司徒凌云:

基于前期研究多模态南海疆维权证据链问题,笔者更关注新技术如何应用于多模态南海疆档案资料的管理开发,服务南海疆域的维权维稳,主要涉及四点内容:

第一,南海疆档案资料的管理开发是支撑中国南海疆权益维护的迫切任务。大国博弈背景下,南海疆维权关乎国家安全、区域和平与亚太经济发展。随着美、英等域外势力的持续介入,南海局势愈发紧张。美国政治上主导“南海新政”,实行南海安全多边主义;外交上拉拢英、法、德拼凑“印太版北约”,将“四国机制”向南海蔓延;军事上在南海区域部署优势兵力,实施“综合威慑”。英国提出“不得损害第三方利益”的主张,阻挠中国主导的“南海行为准则”磋商。加之菲律宾挑起的“南海仲裁案”“仁爱礁非法坐滩”,以及声索国的单边行动等,使得中国南海疆维权工作面临严峻挑战。南海疆档案资料作为一类特殊的数据资产,对于论证中国拥有南海领土主权有着极其重要的价值。为此,收集整理南海疆档案资料,进行有效的管理与开发,挖掘有效证据、梳理证据关系、组织证据链条,构建多模态南海疆维权证据链,已成为支撑南海疆维权的迫切需求与重要任务。

第二,南海疆档案资料的数字化是多模态南海疆维权证据链构建的基础前提。南海疆档案资料的收集与整理已经取得阶段性成果。以南京大学中国南海研究协同创新中心沈固朝教授为代表的研究团队,耗时十余年,在对南海疆档案资料进行人工收集、整理、编码以及数字化的基础上,初步建立了文献数据库、法律数据库、地图数据库、网络信息数据库、影像数据库、民国档案数据库、索引数据库以及外国档案数据库等众多数据库在内的南海疆全文数字资料库群,实现了南海档案资料从“纸质文献”向“数据资产”的“数字化”转型,为南海疆档案资料的开发利用、南海疆维权证据链的构建奠定了强有力的数据基础。

第三,南海疆档案资料的图谱化是多模态南海疆维权证据链构建的关键核心。尽管数字化的全文数据库群可在一定程度上减轻人们在传统文献中皓首穷经的时间耗费,但要从成千上万的图书、论文、网页、地图等数字载体上高效、便捷地读取所需的关键证据信息,仍然非常困难。南海疆档案资料具有多时态、多样态、多语言、多载体、多学科等多模态特征,以关系型数据库技术为代表的南海疆档案资料管理依旧存在“知识粒度粗”“关联关系简单”,以及“智能化程度低”等问题。为此,我们融合情报学理论、领域知识组织与知识服务方法,以及多模态知识图谱等技术,研究了多模态证据实体的智能化抽取表示,包括证据实体的界定标准、抽取算法,以及结构化表示;多层次证据关系的智能化识别链接,包括属性层关系、逻辑层关系,以及证明层关系;多场景证据链条的智能化组织呈现,包括司法维权场景下的证明链条组织、外交博弈场景下的逻辑链条组织,以及教育宣传场景下的叙事链条组织。通过“迭代式、增量式、反馈制导”的方式进一步推进多模态南海疆维权证据链的构建,开发了南海疆证据知识图谱系统,实现了南海疆档案资料的“数字化”向“图谱化”的升级,为南海疆权益维护以及南海疆史地研究提供工具与系统支撑。

第四,南海疆档案资料的模型化是多模态南海疆维权证据链应用的重要形式。图谱化的南海疆档案资料管理保证了档案资料的真实性、可靠性与结构一致性,实现了“场景化、规则式”的细粒度知识链接,提供了“查询式”的知识交互,但是面临知识库规模小、隐性知识关联组织有限、交互方式传统等问题。以ChatGPT为代表的大语言模型技术,实现了变革式的知识组织与知识服务。依托海量数据、超强算力与学习算法训练的大语言模型,可以实现基于自然语言交互完成文本、图像、视频等多模态数据的生成、理解与管理,但同时也面临“幻觉”“遗忘”,以及“可解释性差”等挑战。为了充分融合多模态知识图谱与大语言模型两种代表性技术的优势,我们基于LangChain框架设计并实现了南海领域大语言模型,实现了南海疆档案资料的模型化,融合检索增强生成(RAG)对大语言模型输出进行优化,使其在生成响应内容之前引用训练数据之外的权威数据库,即我们前期构建的多模态南海疆证据知识图谱系统,从而保证生成内容的可信性与可解释性。南海领域大语言模型强大的语言理解与交互能力,为多模态南海疆维权证据链的场景化应用提供了更多的可能性。

多模态南海疆档案资料的管理开发之路经历了从数字化、图谱化到模型化的变迁,每一步的管理开发都紧密融合了当时最先进的技术。相信只有通过档案事业与先进技术的双向融合,才能与时俱进的实现档案资料的开发利用,让档案资料真正的“活起来、用起来”,切实服务国家重大战略需要。

▍苏焕宁:

在数字时代做档案工作和研究是无法回避信息技术的,但多数档案工作者往往又不太擅长技术,因此笔者从一个比较宏观的视角来谈谈当前的技术对档案工作的一些影响。

第一,档案事业与新技术究竟是双向融合还是单向赋能?虽然目前各种技术普遍应用于档案领域,但这种融合的状态更多是建立在信息技术赋能档案工作的基础上的,甚至有时可以说是技术对我们的渗透。档案工作依靠技术得以提升是肯定的,反之档案工作推动技术进步的案例好像并不多。档案处于业务末端,加上较强的风险管理意识,往往更倾向于成熟技术的直接应用。传统档案保护修复时有新技术的研发,但在信息领域透过档案事业得以发明创造或者大幅提升的技术很少,相比之下更为适合的表达是档案工作丰富了某项信息技术的应用场景并使之不断完善。因此所谓的融合需要以档案业务需求为核心去考量,一方面,尽管现在注重交叉学科的人才培养,但比起技术教学更需要的是对专业情怀和专业素养的培养,这是我们的根基和初衷;另一方面,档案部门和技术部门需要建立以档案业务需求为核心的相互理解与支持。

第二,从档案管理目前采用的主流技术中分析其特征和问题。根据近三年国家档案局立项的科技项目,档案工作与技术的融合大概可以从三个方面来看:一是技术环境作为背景来研究工作的开展,例如互联网+、大数据、人工智能、档案云、BIM等;二是传统档案保护技术的研究,如纸张脱酸、字迹恢复等,占更大比重的是信息技术的应用,如大家耳熟能详的区块链、人工智能、知识图谱、可视化等在档案真实性保障、档案鉴定、档案开发利用等方面的应用。可以看到,技术应用的目标在于服务不同的档案管理工作,那么从整个档案管理的全链条来看,就并非某一个单项技术能支撑的,而需要通过多种技术的叠加来保障。这一过程就会导致面对不同阶段的档案管理的需求,所采用的技术有所冲突。举例来看,一方面,档案真实性可以通过各种验证技术的互证来保障,理论上验证技术越多越强就越能保障档案真实性,但各种技术本身的长期保存,就会成为档案长期保存之外所要面临的重要问题。另一方面如上海大学的于英香教授所提,固化技术对于档案的真实性保障必不可少,但对于档案资源的开发而言,档案内容的固化却成为一种障碍。因此如何实现技术选用的逻辑平衡,是值得我们思考的一个问题。

最后是对技术选用的探讨,即面对日新月异的技术,档案部门与档案工作者应该怎样应对。调研发现,很多时候技术对档案工作的支撑是足够的,而往往掣肘的是一些制度问题。例如在最容易碰到的单套制归档中,很多调研单位都反映开展单套制的技术条件已经很完善了,但目前不敢放心大胆推进,原因就在于没有获得完全的政策支持。又如,在其他领域比较火的区块链技术,其最大的优点在于分布式的信息存储和验证,但在我国集中统一的档案管理体制要求下,区块链的应用成效或优势似乎没能很好地体现。此外,对技术的选用还需要考虑两个成本:一是试错成本,档案资源的原始性决定了它相比其他资源而言的稀缺性甚至是唯一性,这客观决定了档案工作中的容错机制弹性不足。对此,针对档案的副本或内容开发的技术会更容易落地,而涉及档案本身的一些技术选用就会十分谨慎。二是经济成本,尽管理论上看技术可以实现,但需要花费的经济成本却难以承受。还是以单套归档为例,“归不全”的一个重要原因即只有一个档案管理系统很难与各式各样的业务系统对接。理论上讲,只要建设的档案管理系统包罗万象,有适配多个业务系统的完善的接口,也包含各业务系统的核心功能,那么与业务系统的数据对接的问题即可迎刃而解。但事实上要建设这样一个档案管理系统的成本可能至少是各个业务系统成本的简单相加,从经济成本来看,这种技术开发和应用的必要性就大打折扣,因此经济成本是技术选用时影响决策的一个很重要的因素。

总之,档案事业和技术的融合是必然的也是必要的,但正所谓“合适的才是最好的”,我们无法做技术的追风者,真正需要的是找准某一领域或某项技术,切实地去推动和实现这种双向的融合。

▍潘未梅:

新一代人工智能与档案事业双向融合应体现为:一方面,人工智能技术赋能档案工作自动化与智能化发展;另一方面,档案学理论、方法与实践贡献于人工智能技术的“向上”“向善”发展。

第一,人工智能技术赋能档案工作自动化与智能化发展。人工智能技术可以助力档案工作的自动化与智能化转型升级。在当前数字转型持续推进的背景下,档案工作面临档案数据体量大、非结构化程度高、信息过载、利用不充分、传统管理方式和方法效率低等问题,急需相关工具的辅助。因此,探讨人工智能辅助档案工作的开展十分必要。近年来,我国档案领域针对人工智能在档案领域的应用已展开积极的探讨。在此过程中,学者们普遍认为应从“档案+人工智能”逐渐向“人工智能+档案”转变,强调人工智能的应用应充分考虑档案本身的性质及档案工作的特点,使之符合档案行业的价值取向与工作原则。易言之,我们应关注人工智能“如何”“更好地”与档案工作融合。

在对我国国家及27份省级“十四五”档案事业发展规划中人工智能相关内容进行分析后发现,19份分别在数字档案馆建设(13)、档案信息深层加工和利用(5)、档案开放审核(3)、档案行政监管(1)等工作领域的内容中提及应用“人工智能”;有10个省级规划倡导探索人工智能等新一代信息技术在档案全链路管理中的应用研究,形成一批标志性成果,运用信息技术解决档案工作中的堵点和难点问题。比如,上海市的规划提到“大数据、云计算、人工智能、区块链、机器学习、数字人文等在档案收集、保管、共享利用领域的应用等重点内容开展科研攻关并取得成果”。

在对我国37个人工智能技术应用于档案工作业务环节案例的分析中,发现目前人工智能技术的应用在广度上基本覆盖了档案管理的全部环节,包括:收集(2)、整理(包括分类)(4)、归档(1)、修复(2)、著录(3)、鉴定(包括确定保管期限、开放审核、保密)(9)、数字化(包括数据化、成果质检)(6)、检索(9)、开发利用(包括编研、文化传播、信息共享)(9)、档案服务(包括查档)(3)、档案安全(包括门禁系统、元数据采集、“四性”检测)(4)。

具体到各个环节所应用的具体的人工智能技术,调查结果显示,各个业务场景所应用人工智能技术整体是一致的。例如,鉴定环节多应用自然语言处理、机器学习、深度学习与计算机视觉技术。对于具体技术在各环节的使用情况,计算机视觉技术是覆盖应用场景最多的技术,可能的原因是要进行数据化识别,首先需要数字化,做准备工作。

在国际层面,芬兰国家档案馆《2025战略》指出:国家档案馆推进基于人工智能和现代科学方法的数据管理、数据开放获取和可持续发展。瑞士联邦档案馆《2021—2025年发展规划》指出:在数据分析和历史研究中探索人类专业知识与人工智能的结合,以便为客户提供最好的支持。美国NARA《2020认知技术白皮书》指出:使用人工智能技术识别符合处置条件的文件,并自动将其销毁或转移到ERA。以上均是在特定环节提出探讨人工智能技术的应用。

对国外39个人工智能技术的具体应用的案例进行分析后发现,其覆盖的业务环节聚焦于档案转录,即OCR识别。说明国外各国水平差距不大。在人工智能的应用上,目前人工智能技术的应用所覆盖的领域、国家有一些差别,但较为全面。

人工智能技术应用于档案工作时,须关注档案学的理论与方法。开放鉴定、自动著录、价值鉴定,不是一个单纯依赖人工智能技术的过程,还需要人工介入,需要相关理论的支持。早在1987年,美国档案工作者在做早期研究时即提到,应用人工智能技术辅助档案工作时,档案工作者应积极参与,包括技术的选择、应用,否则只能单纯使用人工智能来解决档案学的工作,档案学理论和方法的相关性将逐渐降低。

从另外一个角度讲,关注档案学理论和方法可以使人工智能技术更好地去做档案工作。例如,在开展档案分类时,如果是使用基于关键背景信息(古文书学范畴内)对人工智能进行训练,结果则优于专家的人工分类。这显示,关注档案学的理论和方法会让结果更准确。另外,相关研究也认为,著录在内的档案管理工作是应用机器学习算法的必要准备步骤。

此外,人工智能技术在档案领域的应用会带来档案工作的整体转型升级。比如档案资源的数字化程度提高,对档案著录作用及档案工作标准的思考以及档案工作者职业框架的更新等。档案工作者内部就档案学的理论存在分歧。人工智能的应用将迫使我们重新思考我们的理论与方法。对于档案著录标准,需思考档案著录的元素是否有必要结合人工智能进行调整。由此带来的不仅从是AI技术的原始吸纳,还有档案工作生态环境的系统变化,档案工作的自我重塑。

第二,档案学理论、方法与实践贡献于人工智能技术的“向上”“向善”发展。新一代人工智能技术与档案事业的双向融合,从档案学与人工智能的融合来看,其实应该是档案学如何贡献一个学科的力量,利用其擅长之处推动人工智能向前发展。

一方面,档案数据是高质量、可信的数据,人工智能学习的数据如果存在偏差,就会直接带来结果的偏差。档案数据本身是真实的、可信的,可以为人工智能的发展做出贡献。另外对于如何防止数据存在偏差,档案学一直致力于全面记录社会,保证数据记录的全面性、包容性、透明度等,隐私的规范处理等。其在这些领域的积累可以为数据的收集、标注等提供参考。

另一方面,对于可解释人工智能的问题,在档案学领域,“可解释”的概念过于宽泛,例如,为谁解释?解释过程是什么?解释的结果是什么?AI领域也在探索利用文件记录相关过程以提高AI的可解释性。档案学领域认为文件可以被视为一种解释,而文件管理职业应作为信息第三方参与协助生成对AI的解释并进行解释的传递和阐明,这也体现为对AI的记录与保存。

(责任编辑:刘鸿浩 张 帆)