档案数字化转型升级进程中的人工智能应用调查分析
2024-09-25黄梦华刁良瑞孟媛
关键词:档案馆;档案管理;人工智能;数字化转型;照片档案;档案开放;开放审核;技术融合
人工智能(Artificial Intelligence, AI)诞生于20世纪50年代,重点研究怎样使计算机来模仿人脑所从事的推理、证明、识别、理解、设计、学习、思考以及问题求解等思维活动,以解决需要人类专家才能处理的复杂问题。它的研究范围包括:智能搜索、逻辑推理、信息感应辩证处理、语言学习与处理、知识表现和获取、规划决策、软计算等,涉及认知科学、数学、计算机科学、控制论等多种学科。[1]AI是当前档案数字化转型升级过程中重点关注的领域之一,中办、国办印发的《“十四五”全国档案事业发展规划》明确指出要“加强大数据、人工智能等新一代信息技术在数字档案馆(室)建设中的应用,推动数字档案馆(室)建设优化升级”。档案数字化转型升级进程中,对AI技术在档案专业的研究状况进行调查分析,具有现实意义。
1 文献定量分析
1.1 数据来源。以中国知网为文献来源,截至2023年,检索策略为:TI =“人工智能”AND(LY =“中国档案”ORLY = “档案学研究” OR LY =“档案学通讯”OR LY=“档案与建设”OR LY =“北京档案”OR LY =“档案管理”OR LY =“浙江档案”),对列入北大《中文核心期刊要目总览》的档案学期刊中发表的有关人工智能的文章进行了检索,共检索出文献39篇。
1.2 文献年度发表数量趋势分析。年度发文趋势一定程度上反映了档案界在AI领域的发展水平。档案专业期刊历年发表文章数量如图1所示。
2016年发表论文1篇,2017年0篇,2018年2篇,2019年至2022年在4到5篇之间徘徊,2023年突然增至18篇。从历年文献数量可知,档案界对AI的研究可分为三个阶段,2015年之前研究极少,在取样期刊中发表文章数量为0。2016—2022年为低位徘徊期,年均文献数量为3篇。2023年为爆发期,一年内发表文章18篇,是之前年均发文量的3倍,该领域突然成为研究热点。有学者认为2023年是AI爆发的元年,[2]对档案专业来说,2023年无疑是档案专业开展AI研究的转折性一年。
1.3 发文期刊数量分析。各期刊发文数量统计发现,《档案与建设》刊载文章最多,共11篇,占总数的28%;《中国档案》和《档案管理》各刊载8篇文章,占总数的21%;《北京档案》刊载文章5篇,占总数的13%;《浙江档案》刊载文章4篇,占总数的10%;《档案学研究》刊载2篇,占总数的5%;《档案学通讯》刊载文章数量最少,仅1篇,占总数的3%。平均刊载量约为6篇,《档案学通讯》等4本杂志低于平均刊载量,可见在该领域的研究有待进一步提升。
1.4 作者分析
1.4.1 独著与联合作者对比。39篇文献中,16篇文献为独著,10篇文章为两人合著,5篇文章为3人合著,7篇为4人合著,1篇以项目团队名称作为作者。合作研究成果是单独研究的1.43倍,可知在AI研究领域,研究者更倾向于合作开展研究。且以2人与2人以上联合开展研究的数量基本持平。可知目前在该领域以联合研究为主,其中又以2人联合研究居多。
1.4.2 作者发文数量及所在行业分析。如表1所示,共74名作者在该领域发表文章,其中有6名作者发表2篇文章,其他作者均只发表1篇文章。可以看出目前这一领域的研究者还比较分散,尚未出现核心研究人员。
同时,发表两篇文章的6名作者均是联合研究,其中3人来自高校,1人来自政府机关,2人来自企业,具有跨行业研究的特点。为探究样本总体能否体现跨行业研究合作研究的特点,故对74名作者所在单位进行分析,经统计、分类,将其分为高校类事业单位、机关、企业、非高校类事业单位。其中,发文最多的为高校类事业单位,共发表文章37篇,具体发文数量如表2所示。
考虑到高校档案馆、由高校牵头设立的研究机构与高校关系密切,且有些作者既是高校教师又是某研究机构成员,故将其作为一类进行统计。其中,发文最多的机构为人民大学信息资源管理学院,共发表8篇文章。将人民大学电子文件管理研究中心、人民大学档案事业发展研究中心、人民大学数字人文研究中心、数据工程与知识工程教育部重点实验室等与人民大学信息资源管理学院关系密切的机构均算作人民大学的发文数量,总数达到13篇,超过高校类事业单位发文总数的三分之一,在AI领域研究成果最为丰富。
发文量排在第二位的为政府机关,发现共有14家单位在该领域发表文章,且各单位均只发表1篇,尚未出现核心研究单位,但也可看出,较之高校更为侧重具体业务研究的档案部门已开始在AI应用研究方面发力。这14家单位分别是北京市档案馆、北京市市场监督管理局、北京市市场监督管理局档案管理中心、福建省档案馆、福建省档案局、广东省佛山市档案中心、河南省白龟山水库管理局、吉林省档案馆、吉林省延吉市档案馆、太仓市档案局、应急管理部档案馆、浙江省档案馆、镇江市城乡建设档案馆、盐城市城市建设档案馆。
发文量排在第三位的是企业,发文情况如表3所示。
表中可见,有6家企业在该领域发表文章8篇,北京东方基业科技发展股份有限公司等2家企业各发表文章2篇,其他企业发表文章1篇。据此,可知在AI领域,虽然参与该领域研究的企业数量不多,但个别企业研究深度较大,经验更为丰富。
发文量排在最后的是非高校类事业单位,具体情况如表4所示。
考虑到该领域联合研究的特点,对各联合研究的单位所属的行业进行研究,也可看出此类研究的特点。其中联合研究的文章共15篇(为探究其跨行业研究情况,故同一单位的多位作者联合发文不统计在内),考虑到文章第一作者一般是贡献较大者,笔者将其所在单位作为牵头单位,以此进行统计,结果如表5所示。
表中可见,牵头开展研究的单位以机关和高校为主,其中以机关作为牵头单位开展联合研究的共有7家,分别同5家企业、2家机关、2家高校联合开展研究。以高校为牵头单位开展联合研究的共8家,并分别同6家高校、2家企业联合开展研究。由此可看出,机关、高校在该领域有强烈的联合研究需求,且牵头开展研究的比例基本持平,其中,机关更倾向于同企业合作开展研究,而高校更倾向于在高校之间开展研究。以上是笔者对该领域发表文献的定量分析,下面从定性角度进行文献主题分析。
2 研究主题分析
在研究主题方面,通过人工逐篇标注,文献主题数量共39篇,分为3个主题,分别涉及应用研究、方法设计、理论研究等。其中,应用研究9篇,占比23%;方法设计20篇,占比51%;理论研究10篇,占比26%。可以看出,方法设计研究成果最多,一定程度上也代表了目前档案专业在AI领域的主要研究方向。
2.1 方法设计。方法设计方面的研究共20篇文章,占比51%,应用AI技术的研究对象主要涉及音视频档案、照片档案、档案馆等。
2.1.1 音视频档案的研究。一是策略和方法研究,如将AI技术用于音视频档案全周期管理的实现策略,利用AI技术对音像档案内容进行文本化处理的方法。[3,4]二是内容挖掘研究,如利用经AI技术修复的影像,进行音频内容和价值挖掘,并利用自媒体于公共社交平台进行传播等。[5]
2.1.2 照片档案的研究。一是检索机制研究,如应用图片深度学习技术的先决条件以及当前该技术在照片档案管理中的难点,给出要建立前严后松的检索机制,完善照片档案管理标准及评价指标,开发具有自我特色的照片档案管理模式等方法。[6]二是照片修复研究,如围绕图像超分辨率(Super Resolution,SR)智能修复算法的原理和四种发展路线(即基于CNN卷积神经网络、基于Res Net残差网络、基于Attention注意力机制网络和基于复合AI技术的SR技术),并从基于复合AI技术中选取一种名为SWinIR的SR技术进行照片档案修复测试,取得较好的修复效果。[7]
2.1.3 档案馆的研究。一是应用场景研究,如分析AI技术在文件全生命周期中的应用图景以及可能存在制度、技术、伦理、监管风险[8];就AI在档案检索、开放鉴定、分类整理、档案保护中可能的应用场景和推进策略。[9]二是问题对策研究,如与国外比较分析基础上,总结我国档案馆的现状,提出AI的应用规范化、集成化、融合化措施建议。[10]三是业务流程研究,如利用OCR和知识图谱技术发掘档案价值实证研究[11];文档流转信息链中的AI技术应用研究等[12]。四是管理标准研究,如总结馆藏纸质档案、音像档案、照片档案数据化的现状及问题,提出建立基于AI技术的标准,加强“人工智能+档案”的人才培养机制等措施等。[13,14]
2.2 理论研究。理论研究文章共10篇,占比26%,研究内容主要涉及问题分析、趋势分析、因素分析、比较分析等方面。这些分析包括AI技术应用逻辑和对档案管理带来的优势以及存在的瓶颈和挑战[15-18]、AI在档案管理应用研究火热的原因和发展逻辑[19,20]、国内外利用AI赋能档案工作比较和借鉴等。[21]总体上,理论研究体现出研究者力图在AI广泛应用的语境下回答档案专业应用AI技术的“应然”和“何然”等问题。
2.3 应用研究。应用研究文章共9篇,占比23%,研究内容主要涉及国内外档案界人工智能技术应用的项目、业务、模型、平台、教育、合作等方面。
2.3.1 国外档案界人工智能技术应用研究。国外的研究主要聚焦项目和案例方面。如瑞士纳沙泰尔州档案馆ArchiSelect项目,以AI辅助数字档案智能鉴定[22]和AI应用于档案检索利用、档案内容识别转录、档案敏感信息识别等方面的案例;[23]还有罗马第三大学和梵蒂冈秘密档案馆开展的Codice Ratio跨学科项目,澳大利亚的Proof ofConcept(PoC)项目以及美国斯坦福大学开展的ePADD项目等[24]。
2.3.2 国内档案界人工智能技术应用研究。相关学者对电子档案开放审核的界面、流程、核查比例等进行了设计,搭建适合本馆的档案开放审核模型和模型训练优化方法。[25,26]有学者就长时语音文本转译技术及设备,辅助音视频条目著录,图像内容结构化处理等进行研究,研发音视频档案转译文本引擎、音视频档案智慧管理平台。[27]还有学者利用AI技术进行档案智能挑选和智能鉴定划控的研究和档案管理AI应用案例研究。[28,29]另有学者在借鉴“牛津项目”研究成果(注:该项目设计了一种计算AI技术对美国各职业替代概率的方法)的基础上,设计了一个文档管理专业面对AI技术的竞争力计算模型,对美国16所有文件档案管理方向的学院所开设的课程进行分析,并得出结论:样本院校开设的课程难以保证学生面对AI有充分的竞争力。同时个别学院正通过设置双学位以及交叉性学科提升学生对AI的竞争力。[30]
分析上述研究成果可以看出,目前国内外在AI技术应用方式上趋于一致,业务部门、企业、学者合作推进的模式已成主流,均致力于利用AI技术推动档案管理工作更进一步,提高其智慧化水平,且对该技术的应用多通过专门项目形式进行部署和推进。
3 总结
通过上述文献可以看出,ChatGPT技术的出现是引发档案界关注AI技术应用于档案工作的滥觞。诸多文章以ChatGPT或生成式AI技术为研究切入点进行阐述。[31-34]故笔者推测2023年档案专业有关AI研究的文章暴增与此相关。
总体来看,档案专业主要从两个角度出发研究AI技术与档案工作的关系。
一是对AI技术应用于档案管理各环节情况进行研究。在这一方面,北京、福建等地档案部门已作出具有一定推广价值的研究成果。北京市市场监督管理局面对现实工作中遇到的用户查询精度高,传统检索方式效率低的矛盾,通过引入AI技术中的图像识别和信息抽取技术,实现了对存量数字化图像批量自动识别、定位,大幅提升了档案检索的精确度。面对存量档案数量庞大,不同时期档案开放审核标准不统一,批量开放可能存在安全隐患的困境,利用图像识别和内容识别技术结合专家系统,研发了档案页面公开级别智能鉴定工具,有效消除了档案共享利用中信息泄露的隐患。面对音视频档案内容不连贯、片段多、检索不便的特点,尝试通过利用语音识别技术、计算机视觉技术等对行政执法过程中产生的音视频进行自动分类、智能检索。类似的,国家档案局档案科学技术研究所与科大讯飞成立了AI领域的联合实验室,以期构建新型AI智慧档案行业标准。中国石油天然气集团有限公司利用AI等技术,提升了用户体验。福建省档案馆同样为打破传统档案开放审核效率低、主观性强、学习成本高、学习周期长的弊端,积极探索利用基于CRNN+CTC的文字识别算法,以ERNIE模型作为分类器的预训练模型,重构馆内档案开放审核流程,通过智能分库,语义分析、AI等技术辅助进行档案开放审核,研发了利用多级敏感词分类辅助开放审核的“人工智能辅助档案开放审核系统”,实现待开放审核档案自动分类,高亮显示敏感词及频度表,有效提高了档案开放审核效率。上述研究成果说明AI技术在档案领域大有可为,且已进入实践层面。
二是某类档案管理中应用AI技术研究。着重体现在利用AI技术进行照片、音视频档案管理上,诸如照片修复,语音转文字并深加工为结构化数据等,且所提技术方法具体、明确,可操作性强。如利用AI技术成功修复珍贵影像、利用AI技术修复部分照片获得信息增益等的技术和经验具有推广借鉴价值。浙江省档案馆构建的音视频档案管理平台,规范了音视频档案数据化业务流程,为实现AI技术辅助音视频档案整理利用提供了有效手段。同时,部分高校学者通过探究AI技术的发展过程、技术特点以及与档案工作的关系,为AI技术与档案工作的结合提供了理论支撑。
此外,研究者对利用AI技术推进档案工作发展的措施上体现出几方面明显共识。
一是强调加强档案管理理论与AI技术的融合。AI技术赋能档案管理的方法及效果显而易见——所想所得、高效流畅、多样呈现的利用方式以及自然融合、动态实施的信息自组织[35]——使得研究者对不断深化档案理论与AI技术的融合毫无异议。
二是要建立健全档案专业应用AI技术的法规及伦理标准。由于档案内容具有较强的隐私性,而AI技术又存在较大的数据泄露和隐私安全风险,需要建立有效的安全管理制度和伦理道德规范,方可实现AI技术效益最大化。
三是需积极培养综合型档案人才。[36]对档案行业来说,这一共识早已形成,随着档案信息化工作的推进,档案行业已深刻意识到培养既懂信息技术又掌握档案管理技术的复合型人才的重要性,单一的学科背景将难以推动这项工作顺利开展。
四是注重规避AI技术给档案工作带来的风险。[37]这一共识同上述第二点共识较为类似,AI技术虽然在提升档案管理体验上存在无限的可能性,但无法求证的数据处理过程,机器处理依然存在的数据错误,使用大量档案数据进行学习所带来的隐私泄露风险以及机器对数据处理和信息识别、理解技术上的不成熟,依然使得AI技术应用于档案工作时存在诸多风险。因此,档案管理人员在应对AI技术可能给档案工作带来的改变时,应对其技术特点和自身专业素养有清晰的认识,既积极发挥人工智能技术给档案工作带来的便利,又要主动作为,在档案工作中充分发挥主观能动性。