APP下载

基于人工智能的智慧档案馆建设研究

2024-03-15梁尔真吴存峰王园

中关村 2024年2期
关键词:档案馆人工智能智慧

梁尔真 吴存峰 王园

一、人工智能与档案馆概述

(一)人工智能的概念

人工智能简称为“AI”,隶属于计算机科学领域,指的是研发应用于“模拟、拓展人类智能”的技术科学。人工智能旨在掌握智能实质并且研发出近似于人类智能反应的智能机器,主要包含着机器人、深度学习、自然语言处理、专家系统等方面。

二十世纪50年代,达特茅斯学会首次提出了“人工智能”一词,随后相关学者及科学家发展、拓展其概念、理论与原理。电子计算机技术出现与发展后,人工智能发展速度加快。同时期,学者NEWELL与SIMON研发出“逻辑专家”程序,为人工智能发展夯实基础。二十世纪70年代,机器视觉与MINSKY构造等理论快速发展、专家系统出现,人工智能逐渐应用于疾病诊断、股市预测等领域。二十一世纪,世界各国及各领域逐渐认识到人工智能的重要性,其成为新一轮科技革命与产业变革的重要力量,“人工智能+X”成为社会发展的必然趋势,逐渐带领人们迈入普惠型智能社会。

(二)智慧档案馆的概念

当前,我国将档案信息化归入到信息化发展规划中,要求各级人民政府、档案馆、企事业单位等加强档案信息化建设,保障档案安全,以此推进国家治理体系和治理能力现代化。其中,档案数字化在档案信息化建设中处于基础地位,指的是通过高科技手段,将传统档案载体形式转变为数字档案形式,使用单位或人员可利用互联网、局域网等进行检索与阅读,以此提升档案管理与服务水平。如今,档案数字化建设是适应时代发展形势、满足国家发展要求的新举措。但需要注意的是,建设数字档案馆仅能提升档案利用率,不能辅助档案工作人员开展业务及服务工作。

二、国内外研究现状及发展趋势

(一)国外应用发展状况

二十世纪50年代,以“人机对话衡量机器智能程度”为核心的图灵测试开启了自然语言处理技术的发展历程。二十世紀50年代到90年代,人工规则、专家系统等出现后,促进了早期自然语言处理领域的发展。二十世90年代后,计算机运算速度加快,统计学习方法逐渐趋于成熟,人们可采用统计机器学习方法完成自然语言任务。二十一世纪,各国纷纷将人工智能发展纳入国家核心战略,BERT预训练模型、Codice Ratio项目等出现,逐渐解决了自然语言处理无法满足深度学习模型的大规模标注数据需求等问题。随后,人工智能发展速度愈发加快、应用领域愈发扩大,改变了世界发展形势及人们的生活形式。

(二)国内应用发展状况

2017年,我国将人工智能纳入全国政府工作报告,强调要迎接新元年,促进包含着人工智能的各类新兴产业发展。同年七月,我国发布了《新一代人工智能发展规划的通知》,将人工智能发展纳入国家发展战略,建设新一代人工智能关键共性技术体系。随后,我国相继发布了《国家新一代人工智能开放创新平台建设工作指引》《国家新一代人工智能标准体系建设指南》等政策文件,要求搭建人工智能标准体系,着重研究服务、算法重点急需标准。上述领域技术标准以“人机交互”“自然语言处理”等为核心,能促进人工智能进一步发展,夯实技术基础。

三、基于人工智能的智慧档案馆建设策略—以某A智慧档案项目为例

(一)项目概述

数字化改革背景下,想要实现档案智治,应引进并运用人工智能建设智慧档案应用系统,从而加快智慧档案馆建设步伐,实现档案智能化搜集、分类、储存、利用与管理。某A智慧档案项目主要基于深度学习、自然语言处理与知识图谱等人工智能技术,在档案智治目标驱动下研究“基于人工智能的智慧档案应用”,主要开发基于深度学习的档案文本识别模型、基于NLP技术的档案行业大规模预训练模型、基于语义网络的档案信息抽取与挖掘分析、基于人工智能的档案大数据应用系统。项目具体内容如下:

1.基于深度学习的档案文本识别模型

在历史原因与档案价值等因素的影响下,当前,大部分档案数据源自线下实体档案电子化,虽然我国持续推进档案电子化扫描工作,但是其图像数据仍属于非结构化数据,使用单位及人员无法进行深入分析与高效处理。由此,如何针对上述电子档案进行文本识别与内容提取是此项目研究的基础工作。

面对繁杂的图文场景时,传统OCR识别技术难以有效辨识文字内容,尤其是存在大量表格、老化、受污、受损、折痕等内容的档案,而光学字符识别能自动化辨识图像的文字内容。近年来,随着计算机视觉等人工智能技术快速发展,OCR技术在某些领域与人工智能技术进行有效融合后取得较大进步,其能利用深度学习的自适应学习驱动方式解决传统技术的部分问题,适应与优化传统简化参数预处理程序,最终实现“端到端”的处理,提升技术辨识率。此项目以“OCR技术”为基础,搭建以“档案数据集”为基础的人工智能深度学习模型,借助人工确认、文本检测等环节提高对文本或表格内容辨识的精准率。

2.基于NLP技术的档案行业大规模预训练模型

如今,我国多领域、行业均开始搭建预训练模型,然而档案领域尚未出现类似系统。同时档案领域涉及较多,存在档案跨行业等现象,关联特性较为复杂,不能形成统一的预训练模型。此项目拟建设大规模预训练模型,涉及民生档案、历史名人档案等方面,主要研发“大及超大规模”的预训练模型与性能调优技术、具备通用能力的自然语言理解技术、脑启发语言模型等。

3.基于语义网络的档案信息抽取与挖掘分析

如今,数字档案服务主要集中于“搭建服务内容与框架”,重点研究资源、服务模式等方面,理论研究较多,实践性研究较少,同时我国各省市的数字档案建设缺乏智能服务,现有研究与发展受限。然而,近年来我国逐步迈进智慧时代,提高了对语义网络等人工智能技术的重视程度,再加上档案行业及相关学者也逐渐认识到了语义技术对数字档案发展的重要影响,其能提高档案服务效率与质量。在此背景下,具有“集成化”等特征的知识图谱能有效解决数字档案零散化问题,为用户提供更加全面、高效的服务。

(二)人工智能在智慧档案馆建设中的应用

1.智能化搜集

目前,“文本挖掘”是档案领域较为热门的一项技术功能,其应用价值较高。例如,编制与研究档案时,人们需要寻找大量资料,往往耗时耗力也无法获得理想的结果,而文本挖掘能解决此类问题。无论是Google爬虫还是百度蜘蛛,都属于智能Agent,其能在浩如烟海的文献资源中寻找所需材料。档案OCR是利用OCR技术对纸质档案数字化副本等图像文件中的字符形状进行识别、文字轉换和文本输出、呈现的过程。某A智慧档案项目即通过人工智能技术进行档案OCR,能直接提升工作效率,从而进一步实现自动著录等功能,促进档案资源数据化转型。同时,在大数据挖掘分析手段的支持下,可以利用可视化技术描述知识资源,描绘与展示其关系,以此满足使用者的个性化要求,自动化推送内容,智能化查档出证。系统分析查档行为数据后,能构建分析引擎并且形成用户画像,增强查档的方便性。查档时,NLP技术等能将用户检索语言转变为计算机通用语言,明确检索内容的属性特征并且发现各文本的关系,直接反映其知识图谱的实体等,再利用各实体关系推送所需信息资源,让用户可浏览系统化知识,形成并且提升档案智慧服务。

2.智能化分类

传统档案馆档案管理模式主要遵循一定规则标准,按照档案周期、内容、形式等进行分类并且构建相应体系。近年来,各类新型档案出现,对档案分类及管理提出更多要求。由此,档案信息化建设背景下推行智能化档案分类是一种新方法与新要求。自然语言理解是人工智能领域中非常重要的一部分,指的是让计算机理解人类自然语言,其主要包含着语义分析、词法分析等方面,运用乔姆斯基语法并且结合各国家母语语料库,通过有限状态自动机扫描等待辨识的文本并且经过深度学习形成统一化中间语言,从而满足各类应用要求。由此,自然语言理解在智慧档案馆智能化分类中发挥着重要作用,基于全文数据库与人工智能机器,根据标准档案分类方式自动化搭建专题数据库。

某A智慧档案项目主要利用NLP技术进行档案智慧开放审核,通过机器深度学习建设数据模型与保管期限表、敏感词库等知识库和规则库,随后在人工干预的作用下进行智能化鉴定,以此实现智能鉴定分类统计等功能,促进档案鉴定全程序智慧化发展。具体如图1所示:

图1 某A档案智能项目智能化审核工作流程

3.智能化管理

档案安全至关重要,其主要包含着实体与数字档案安全,前者即保障库房安全,通过引进具备智能识别功能的门禁系统保证档案安全,其中基于人工智能技术的声纹识别、人脸识别等技术非常关键。后者即保障存储与通信安全,智慧档案馆多应用集中式存储,但随着数据量大幅增多,此种储存方式难以满足海量数据储存要求,智慧档案馆可采取分布式存储方式,利用人工智能技术驱动档案云智能存储调度等。

四、结语

综上,如今世界各国积极发展人工智能技术,以此推动新一轮科技与产业革命。近年来,我国相继发布相应政策及计划,如“中国大脑”计划等,要求通过发展人工智能抢占技术高地。本文以某A智慧档案项目为例,分析了人工智能在智慧档案馆建设中的应用,以此优化档案馆检索、分类、利用各环节,主动迎接新一轮档案信息技术革命浪潮,促进我国档案事业跨越式发展。

(作者单位:浙江星汉信息技术股份有限公司)

猜你喜欢

档案馆人工智能智慧
2019:人工智能
人工智能与就业
数读人工智能
全省部分档案馆新馆掠影
下一幕,人工智能!
太仓市数字档案馆成为“全国示范数字档案馆”
when与while档案馆
有智慧的羊
智慧派
智慧决定成败