档案文本结构化:概念、原理与路径
2019-12-17赵生辉西藏民族大学管理学院
赵生辉/西藏民族大学管理学院
胡 莹/云南大学历史与档案学院
我国档案信息化范式正在由“档案数字化”升级为“档案数据化”[1][2]。在电子文件或档案数字化成果的基础上,对文本信息进行结构化描述和标注,使采用自然语言表述的档案信息在供用户阅读和利用的同时,具有被计算机自动分析和处理的潜力。深入分析档案文本结构化的概念内涵、技术原理与实践路径,对于档案数据化工程的战略规划具有重要参考价值。
1 档案文本结构化的概念界定
“档案文本结构化(Archival Text Structuring)”是指参照某种结构化模型,将表示档案内容的文字符号序列转换为计算机可以高速、精准处理的数据形式。档案文本结构化的过程也是档案数据化加工的过程,其结果是产生计算机可以高速处理的档案文本数据。在数字化环境下,文本的内容与显示具有相对可分离性,档案文本结构化只关注文本的语义信息,与文本的字体、字号、颜色等显示属性无关。“档案文本结构化”体现了“面向人工(Human Oriented)”与“面向机器(Machine Oriented)”两种应用需求的冲突与平衡:一方面,档案文本需要人的阅读才能被理解,应该采用人工易于理解的自然语言文本进行社会信息的记录与描述;另一方面,大数据和人工智能时代的档案管理需要充分考虑计算机的高速自动分析需求,尽可能采取某种便于计算机处理的逻辑结构进行存储和管理。档案文本结构化是对上述两种应用需求的平衡,其成果是档案和数据两种属性的集合体。它既是以结构化数据形态存在的档案文本,也是内容信息具有档案价值的电子数据;既可以像其他类型的档案一样提供阅读和利用,也可以支持计算机自动操作和分析,为用户提供更为精细化和智能化的档案信息服务。
2 档案文本结构化的技术原理
档案文本结构化以现代认知语言学当中的框架语义学(Frame Semantics)理论为指导,致力于在多种基础资源的支撑下,实现档案文本符号序列的层级化、颗粒化和语义化。
2.1 理论基础
“框架理论”是美国麻省理工学院人工智能实验室的马文·明斯基(Marvin Minsky)于1975年提出的一种认知学说,基本观点包括:框架(Frame)指存储在人的大脑当中与典型情境相关的基本知识结构,是基于以前记忆的“知识空框”,限定认知范畴的大致结构,具体内容需要根据不同的认知情境进行填充、修改或更新[3]。根据框架理论,人们在阅读档案时之所以可以快速理解文本的含义,是因为大脑中已经存储了关于同类文档的认知框架,熟知认知框架的人可以将某个文字符号与其代表的语义信息联系起来,快速完成对文本内容的结构化解析。要让计算机具备简单的阅读和理解档案文本的能力,就要把人阅读档案文本时的所依赖的认证框架提供给计算机,即构建特定领域档案的语义框架库。因此,档案文本结构化的基本思路是将人类有关特定领域档案文本逻辑结构的知识予以“外化”,形成可供参照的领域档案语义框架库;在此基础上,参照特定认知框架,在档案文本适当位置嵌入结构或语义标记,将人对文本结构的理解转换成为计算机可以识别、共享和处理的形式。
2.2 基础资源
语义框架(Semantic Frame)可分为上层和终端层两部分。上层是对语义要素相互关系的层级化描述,终端层由一系列的语义槽(Semantic Slots)[4]组成,需要用具体的实例或者数据来填充才能描述事物的特征。语义框架主要通过对框架元素(Frame Elements)和词元(Lexical Unit)两种对象的结构化描述来表达,框架元素只有被某个具体的词元所表征时才能被用户理解。因此,档案文本结构化涉及的基础资源主要包括“语义框架库”和“词元本体库”两大类型,需要按照“面向领域、需求驱动”的原则,采用人工与机器相结合的方式,经过不断修正和完善进行构建。领域档案语义框架库旨在构建、集成和保存特定档案管理领域绝各类常见档案的语义框架,为档案文本的语义标注提供逻辑参照体系。作为框架语义槽的填充要素,词元在框架当中发挥了非常重要的作用,同一主题类型的档案文本的差异性主要是通过词元的差异性来体现的。为提高档案信息服务的智能化程度,可以对特定领域词元背后的语义关系进行梳理,明确各相关概念之间的语义关系,构建领域本体知识库,作为档案文本结构化的基础资源。建设特定领域词元本体知识库的目的,是将语义框架要素可能的取值限定在可控的范围之内,明确各类词元之间的语义关系,为基于本体的语义推理和查询扩展提供支持。
2.3 技术路线
第一,文本层级化细分。“文本层级化”是对档案文本的宏观结构逐层细化的过程,每深入一层,原本作为整体存在的文本或者模块就被划分成为若干个更小的模块。通常情况下,切分的粒度越小,涉及的工作量就越大,档案文本当中嵌入的标记符号就越多,文本结构就越复杂。上述逻辑结构可以用XML提供的文档对象模型(Document Object Model,DOM)来表示和处理[5]。DOM用根节点表示整个XML文件,每个XML标签是一个元素节点(nodes),多个节点构成树状的层级结构[6]。档案文本采用DOM进行标注和表示时,就可以通过访问DOM属性和方法完成相关数据操作。
第二,信息颗粒化映射。“信息颗粒化”是指将档案文本当中所蕴含的各类细粒度语义要素转换为数据形式的过程。例如某档案题名为《深圳市人民政府关于加强档案工作的指导意见》,可以将其转换为三个等价数据表达式:“发文机关=深圳市人民政府”“主题=加强档案工作”“文种=意见(下行)”[7]。档案类型具有多样性,有的档案要素转换为数据形式之后语义信息并没有任何损失,而档案当中的大多数自然语言文本段落无法全部转换为数据形式,只能参照语义框架,抽取其中较为重要的关键信息进行转换,转换的结果是形成自然语言文本段落的核心语义数据集,两者并不能完全等价。为了体现这种并非严格意义上的对应关系,本文将档案文本信息颗粒化加工称为“数据映射(Data Mapping)”,即用结构化数据来表达的各类档案文本的核心语义信息,两者可以等价也可以不等价。
第三,词元语义化关联。词元的语义关联涉及两个层面的问题:第一,词元的自然语言文字符号与档案整体的关系;第二,词元的自然语言文字符号与外部世界的关系。第一个问题主要通过语义框架的结构要素标记来解决,例如标记〈发文机关〉国务院〈/发文机关〉的含义就是某文书档案的制发机关是国务院,计算机可以通过〈发文机关〉标记明确公文的制发者。第二个问题主要通过基于本体的词元语义标注来解决。参考领域本体知识库,对档案词元文本进行语义标注的意义在于,添加了语义标记之后,计算机就能准确理解该词元文字符号所指代的外部世界的实体对象,从而可以调动与该实体相关联的各类知识,通过语义推理方法,更好地完成档案管理领域的复杂性、智能化检索任务。
3 档案文本结构化的实践路径
根据档案管理部门介入的时间点和介入方式的不同,档案文本结构化工程可以分为“后端结构化”“前端结构化”“云端结构化”三种实践路径。
3.1 后端结构化:档案数据化加工
档案文本的后端结构化,指在纸质档案数字化扫描成果的基础上进行深度开发,通过对档案图像进行文字识别和语义标注,将档案文本转换为结构化数据,便于计算机自动分析和处理。档案文本结构化是对档案数字化加工的延续,数字化阶段编制完成的档案元数据依然有效,其检索不限于针对档案整体的粗粒度检索,还包括深入到档案文本的细粒度内容检索,可以支持更为复杂的语义推理和扩展查询。档案文本数据化成果并非天然具有法律效力,只有严格规范数字化扫描、文字识别、语义标注、信息抽取等环节,才能最大限度地减少档案语义信息在加工过程中出现损失和失真的可能性。考虑到信息抽取环节无法做到语义数据与源文本完全等价,因此在档案智能服务过程中,要慎重使用计算机系统经过自动分析提供的结果,必要时要调阅档案图像进行确认与核对。
3.2 前端结构化:档案受限生成
档案文本前端结构化,是指档案管理部门需要对档案形成过程进行前端控制,使电子文件在最初生成时就符合结构化管理的各项要求,以便于计算机处理的数据形态存在。具体而言,档案管理部门需要通过制定相应的标准规范,使业务部门在业务系统设计或者更新换代时,充分考虑档案数据化处理的需求,在文本中嵌入规范化的档案结构标记和词元语义标记,使电子文件可以在供人工阅读的同时,按照便于计算机处理的数据形式进行保存。上述过程中,电子文件产生者不能自由编辑文本,而是在电子文件管理系统中,按照给定的语义框架模板,录入覆盖到所有核心语义框架要素的词元序列,最终由计算机自动生成结构化的档案文本,本文将这种模式称为“档案受限生成”。按照受限模板生成的档案数据本身就具有凭证效力,在业务系统中可以驱动业务流程的进行,在司法活动中可以作为证据使用。通过受限模板生成的电子档案可以有多种呈现的方式,既可以与框架显示模板文件相匹配生成规定版式的文档,也可以灵活调用其中的某些框架要素组合成多种多样的视图,在不需要显示时也可以保存在文档数据库或者关系型数据库当中,供计算机程序调用和分析[8]。
3.3 云端结构化:档案数据化外包
档案文本结构化所涉技术更为复杂,尤其是档案语义框架库和词元本体知识库的构建需要大量领域专业知识和数据科学知识支撑,在业务机构现有人力资源和技术条件不具备时,也可以考虑通过档案数据化工程外包的方式来实现,以提高工作效率和专业化程度。档案文本云端结构化是指社会组织不再自行开发档案数据化系统,而是借助专业的档案信息化服务商提供的云计算平台,由档案数据服务商在系统后台完成档案数据化加工的过程[9]。云端结构化路径可以保持与现有办公系统的良好衔接,业务机构将档案扫描图像或者非结构化电子文件提交给数据服务商,由数据服务商依托云端的档案框架库和词元本体库等基础资源完成映射和标注,经过验收保存回业务机构的档案文本数据库,供档案智能检索系统和其他应用系统调用。