APP下载

徽州文书文本化语音识别技术应用研究*

2023-03-10钟远薪杨新涯

图书馆论坛 2023年2期
关键词:建库识别率徽州

钟远薪,王 蕾,杨新涯,薛 玉

0 引言

徽州文书是现存数量最多的民间历史文献[1],是历史上徽州人在社会生产、生活与交往过程中形成的原始凭据、字据和记录。徽州文书的大量发现和利用使得学者可以立足于徽州区域研究提供的丰富内涵,更好地解释中国的大历史[2],促使以徽州文书研究为中心、综合研究社会实态、探寻中国古代社会后期发展变化规律的新学科“徽学”的出现[3]。

徽州文书数字化是其广泛利用与研究的基础。著名学者刘志伟认为“理想中的数字化是全文录入,中山大学图书馆馆藏徽州文书只有建立全文数据库,才真正谈得上数字化”[4]。提取全文文本、建立全文数据库是辅助学者运用数字人文视角、方法和工具去鸟瞰、分析和挖掘徽州文书的前提,也是帮助学者更深入地掌握文献、拓展研究和发现新知的必要工作。

Optical Character Recognition(OCR,光学字符识别技术)是图像文字转化为文本的主要技术,被广泛地应用到古籍文本化工作中,取得了良好效果,《四库全书》《中国基本古籍库》等重大史料全文数据库得以建成。徽州文书存在大量不规范手写字、异体字、简化字及相似字,且文字残缺或模糊,排版复杂,形制各异,OCR应用效果不甚理想,其文本提取仍以手工录入为主,全文数据库建设进展缓慢。近年语音识别技术日趋成熟,已被广泛应用到各种生活与工作场景。能否利用语音识别技术提高徽州文书文本转化的效率,为其全文数据库建设提供新方法,是一个具有探索意义和实际应用价值的问题。

1 相关研究

1.1 徽州文书数字化

迄今徽州文书数字化研究主要涉及数字化扫描、元数据标引、数据库建设等内容。金再华探讨了分步建立题录数据库、全文数据库的数字化构想[5];俞乃华等介绍了徽州文书整理与建库流程[6];秦枫等探讨了徽州文书数字化路径[7];张晓峰等从标识、内容和物理外观等方面定义徽州文书的描述数据,归纳徽州文书元数据标准的内容和结构[8];张洁等介绍了契约文书描述性元数据的功能、设计原则与思路[9];王蕾等从数字人文视角讨论徽州文书数据库的建设思路和元数据体系,提出全文检索与数据关联的设计方向[10]。在实践方面,1999年中国社会科学院历史研究所率先建设宋至民国时期14,000余件徽州文书资料库,2005年安徽大学开始建设“徽州文书书目数据库”,2007年黄山学院建设“徽州文书特色文献数据库”,上海交通大学出版社随后开发“中国地方历史文献数据库”,目前安徽师范大学图书馆“徽州历史文化特色数据库”、中山大学图书馆“徽州文书数据库”也在加快研发步伐。这些数据库建设大致经历了书目库建设、特色库建设和研究平台3个阶段[11]。已建成开放的徽州文书数据库以图像为主,仅“中国地方历史文献数据库”提供9,000余件徽州文书的全文检索。

文本化是徽州文书数字化的关键。从相关研究与实践看,以手写字体为主的民间历史文献、档案文献的文本提取,主要采取手工录入为主、OCR识别为辅的方式。虽然手工录入效率低、成本高,但长期以来是许多文本化项目得以切实开展的唯一手段,不少数据库在耗时日久、历经艰辛之后得以建成。近年众包理论被应用到实践[12],一定程度上提升了手工录入效率。OCR很早就被用于文献资源加工,孙承鉴等早在1993年就研究如何在图书馆中应用手写文字识别技术[13],黄晨等介绍了CADAL项目中构建可持续发展OCR系统的实践[14],王玲丽概述了上海图书馆近代文献全文OCR过程[15],顾磊等探讨了古籍全文文本化中OCR技术应用的若干问题[16]。在国外,“威尼斯时光机”“梵蒂冈秘密卷宗”等项目成功实现了大量历史档案手写字母文字的识别[17-18]。OCR应用于民间历史文献领域最大的挑战在于手写汉字识别,虽然随着深度学习技术的发展,手写汉字识别在方法和性能上取得突破性进展,但大类别、无约束、文本行等问题仍有待解决[19]。对徽州文书而言,数量庞大、内容复杂、形制不一、字体多样、字迹潦草等特性使得OCR的应用进一步受到了限制,目前尚未见徽州文书领域应用OCR的专门研究和实践报道。

1.2 语音识别技术的发展与应用

语音识别是让机器通过识别和理解过程把人类的语音信号转变为相应的文本或命令[20],其技术发展大致分为3个阶段。1950-1960年代是初步发展阶段,线性预测分析与动态规划技术解决了语音信号的特征提取问题,使语音识别基本可用。1970年代至21世纪初是突破阶段,高斯混合模型-隐马尔科夫模型(GMM-HMM)被应用于大词汇量连续语音识别,取得了良好效果,并与其他领域技术结合,提高了识别准确率,实现了产品化。近10年是成熟阶段,2009年深度学习首次被应用到语音识别任务,相比于传统GMM-HMM模型,获得超过20%的性能提升。此后基于深度神经网络的声学模型逐渐成为语音识别声学建模的主流,大大促进了语音识别技术发展,突破了某些实际应用场景下对语音识别性能要求的瓶颈,使语音识别技术走向真正实用化[21]。

随着大数据的爆炸式增长和涟漪效应理论的深入应用,语音识别已成为人工智能领域最成熟、落地最快的技术[22],多种场景下的识别率逼近100%,针对不同行业需求的语音识别产品不断涌现,并普遍应用于现代社会。语音识别技术主要有语音交互、语音翻译、对象识别和语音输入4种应用模式。语音交互应用最广泛,包括各种指令系统、智能家居控制系统、智能语音助手、语音交互机器人、语音社交工具等;语音翻译主要用于同声传译等多语种场景;对象识别则包括物体识别、人物识别以及情感识别等方面;语音输入更多用于各种文字处理与资料转录场景之中,如1994年有文献提出应用语音识别技术进行手写字体识别的方法[23],医学领域也曾广泛讨论语音识别技术用于病历档案的处理。

图书馆与档案领域对语音识别技术的研究集中在语音交互方面,如研究图书馆服务机器人语音指令系统[24-25]、描述图书借阅证语音挂失系统的设计与实现[26]、探讨图书馆应用语音识别技术开展信息无障碍服务的举措[27]、探讨语音识别在检索系统中的技术方案[28-30]、提出小型语音交互移动数字图书亭设计概念[31]。因为缺乏应用场景,几乎没有对语音翻译与对象识别的应用研究。在语音输入方面,2002年的一项研究提及语音识别用于文书档案数字化的方法[32],但后续未见深入探讨。近年智能录音笔、档案机、智能语音录入系统等产品相继面世,已有档案馆将其用于口述史收集、音视频档案数据转换等实践[33]。总的来说,利用语音识别来进行诸如文献资源著录、文本提取、内容转换等资源建设方面,仍处于初步探索阶段。

2 实验研究

2.1 实验目的

中山大学图书馆是收藏徽州文书数量最多的机构,正全面展开徽州文书数字化。现阶段通过手工录入提取数十万件徽州文书的文本是一项成本巨大且耗时日久的任务,应用OCR提取文本仍存在前处理困难、识别率过低等技术障碍。当前语音识别的准确率已近乎100%,具有一定文化、经过简单培训的人员可以很好地识别并朗读文本内容,通过语音识别技术将朗读的语音转化为文本,应该具有可行性,并且能够大幅提高徽州文书文本提取效率,从而推动馆藏徽州文书全文数据库的建设。为此,本文进行手工录入、OCR和语音识别的对比实验,以求答案。

2.2 实验设计

2.2.1 方法概述

通过不同层次和水平的实验人员,利用相同的实验设备,分别采用手工录入、OCR、语音识别的方法,对若干徽州文书图像的文本进行直接提取和校正提取,并记录操作时间和提取结果,计算得出识别率及识别时间,从而进行比较分析,以验证语音识别技术用于徽州文书文本化工作的可行性和适用性。

2.2.2 实验对象

实验选取10页徽州文书作为研究对象,涵盖归户清册、黄册、婚嫁礼单、家谱、卖契、书信、税票、诉讼文书、鱼鳞册及账单(见图1)等主要类型,均以竖排、手写汉字为主,部分文书内含有地图、印章等图形信息。污损情况包括涂改、污渍、模糊、缺失等,按严重程度分为无、一般和严重3种,注明客观条件下无法识别的字数。文字内容特征分为白话文、半白话文和文言文3种。为建立相对一致的实验条件,所有文书均扫描为数字图像,并进行简单的纠斜和裁边处理,且文本内容已被准确提取用作标准答案,总字数包括无法识别的字数。实验对象情况见表1。

图1 徽州文书之账单

表1 实验对象信息表

2.2.3 实验人员

实验人员共5人,包括从事徽学研究的专业研究人员、从事徽州文书文献处理的专业馆员、普通馆员和大学生。实验人员信息处理能力是指经初步培训后的录入设备及数据加工系统使用能力,分一般、熟练和精通3类;识字能力是指对徽州文书中简繁体字及异体字的识别能力,分一般和精通两类;普通话水平分一般和良好两类。具体人员信息见表2。

表2 实验人员信息表

2.2.4 实验设备

不同的实验设备会对实验结果造成影响。在确保实验结果不会因实验设备产生显著性差异(P<0.05)情况下,选择市场上可获得的评价较高、效果较好的主流设备作为实验设备。手工录入实验设备为高性能双屏个人电脑,一个屏幕显示图像,一个屏幕显示录入工作区,并由实验人员选择其所熟悉的输入法。OCR实验设备为高性能双屏个人电脑,经过多份徽州文书对比测试,汉王、书同文、百度云、腾讯云等多个主流OCR引擎的识别准确率相差在5%以内,其中腾讯云OCR识别性能较为稳定,总体识别准确率最高,因此基于腾讯云API开发识别软件进行实验①。语音识别实验设备为高性能双屏个人电脑与科大讯飞智能录音笔SR701。

2.2.5 实验步骤与要求

为避免实验人员因重复操作而熟悉内容进而影响实验结果,实验设计每份文书仅被同一位实验人员使用每种方法提取2次:第1次为直接提取,第2次为校正提取,分配见表3。实验人员在实验前均未接触实验对象及其标准答案。实验以符合徽州文书数字化工作流程为基础,遵循徽州文书数字化工作的相关标准和规范,并以现有条件下取得最高识别率为首要要求,兼顾录入效率。每份文书共被提取2次,其技术要求见表4。

表3 实验分配表

表4 实验技术要求说明表

2.3 结果与分析

2.3.1 实验结果

将每份文书的提取时间记为识别时间,单位为秒(s),识别结果与标准答案比对结果记为识别率,以百分比表示,实验结果见表5。取各种方法识别率最低的结果为最低识别率,识别率最高的结果为最高识别率,并统计平均识别率和平均每100字的识别时间,实验结果统计信息见表6。

表5 实验结果一览表

2.3.2 结果分析

表6表明,语音识别与手工录入相比,直接提取识别率存在较大差距,但平均百字识别时间仅为手工录入11.7%,校正提取后识别率相对手工录入差距明显缩小,识别时间约为手工录入16.9%,显著提高效率。语音识别与OCR相比,直接提取平均百字识别时间是OCR近22倍,但校正提取两者在耗时方面已接近,二者平均识别率分别从39.50%上升到67.01%及从53.94%上升到80.22%,对中山大学图书馆徽州文书数字化工作而言,达到基本可用的水平。

表6 实验结果统计表

手工录入准确率最高,排除文字缺损无法识别的情况,理论上可以达到100%,但耗时较长。OCR耗时极少,但受版式、字体及异体字等客观障碍影响,识别率最低。在实验中OCR直接提取最高识别率为刻印类型文书的识别,达到86.84%,但大部分手写文书的识别率仅15%~40%,实验平均识别率为39.50%;经过前处理采用分块提取的情况下,耗时较手工录入仍低一个数量级,但其识别率仅53.94%,达不到规模应用要求,不过OCR对刻印型文书的识别表现出较好的处理性能。语音识别率主要受表达方式影响,徽州文书在语言表达、语词运用方面均与现代汉语有很大不同,而当前主流语音模型是基于现代语音数据训练出来的,因此容易出现错误,导致文言文和半白话文识别率较低。此外,同音字、偏僻字是影响识别率的另一主要问题。通过配置个性化热词表可以将语音识别的识别率从67.01%提升到80.22%。从实验还发现不同专业层次人员语音识别录入的识别率和时间差异并不明显,表明该方法具有不错的用户适应性。

综上,虽然语音识别用于徽州文书的识别率仅80.22%,仍需手工修改,但相较于OCR已有显著提升,同时识别时间比起手工录入明显减少,可大幅提高徽州文书的文本提取效率,对馆藏机构而言已达到基本可用水平。

3 应用模式探讨

文本提取只是语音识别技术的基本应用。通过设定语音指令,根据不同功能需求,定义不同的语音输入与文本输出规范,并结合语义网络、知识图谱等技术,语音识别在徽州文书数字化工作中具有多种潜在的应用模式。

3.1 简单文本化模式

如图2所示,简单文本化模式是直接利用手机、智能录音笔等语音识别设备或各种语音识别系统来进行语音转写,从而提取文本的应用模式。这一应用模式已被实验证明具有可行性,且实施灵活方便、成本低廉、可广泛开展,其缺点在于仅完成了文本提取,图像与文本对应、数据入库等工作仍需后续处理。

图2 简单文本化模式架构图

3.2 建库模式

对文献进行编目,建成数据库以实现检索和文献获取功能,是文献数字化的基本需求。建库模式通过设定语音指令或在录入界面中进行字段拆分,将语音转化为文本与题名、文书类型、录文等数据库对应字段,从而实现元数据标引,达到快速建库的目的,已经成为各类档案机、智能语音录入系统的基本应用模式。这一模式在现有建库系统上进行简单扩展即可实现,具有实用性强、可行性高、系统改造成本低等优点。一种典型的建库模式架构如图3所示。

图3 一种建库模式架构图

3.3 语义化模式

数字人文研究要求对文献内容中的人物、地点、时间、事件等实体进行规范标注、形式化描述和联系构建,以支持实体、实体属性及实体关系的机器自动识别、关联揭示和开放利用。当前主流的语义建库一般分步开展,即先进行全文建库,再通过人工或机器学习等手段,实现实体、属性和关系的抽取、链接和入库,其中利用人工干预提高建库质量这一步骤不可或缺。语义化模式是一种在文本化过程中同步实现语义信息提取的设想,用户通过二次朗读,向语音交互系统发出语义语音指令,如“语义指令-人物-XXX-XXX”“语义指令-时间-XXXX年”,激发语音交互系统向语义数据服务系统发起查询,并根据返回的数据,产生文档的语义标注数据,进而实现语义建库的功能,图4为一种典型的语义化模式架构。

图4 一种语义化模式架构图

3.4 大规模多人在线知识化模式

为提高建库效率和质量,众包理论被广泛研究与运用。众包不仅可以利用互联网整合大众力量来完成大规模的数据处理工作,还可以通过多重标记校验数据并提升其准确性。当前众包建库实践中主要以手工录入为主,鉴于语音录入的便捷性,开发在线语音知识化众包平台,面向大众收割全文片段、元数据乃至命名实体的语音,进而实现数据提取的大规模多人在线知识化模式是徽州文书数字化工作深入推进的可选路径之一。

大规模多人在线知识化模式要求系统具备录入界面简洁、录入文本不宜太长、任务设计简单并有一定的挑战性、适合社交网络传播等特点,主要收割短语音,在此基础上提供数据智能比对、知识抽取与融合等复杂功能。一方面利用同一份文书的多重标记数据、徽州文书规范数据和开放关联数据,对用户输入进行比对和纠错,累积校正数据以训练机器,以提升系统的整体效率。另一方面,应用成熟的知识图谱技术实现数据整合、信息抽取、数据链接和知识融合,将推进徽州文书数字化从数据库向知识库转型。一种典型的大规模多人在线知识化模式架构见图5。

图5 一种大规模多人在线知识化模式架构图

4 讨论

4.1 价值

针对徽州文书数字化工作中文本提取的困境,本文提出一种可行的语音识别方法,具有多方面优势。一是简化全文建库步骤,无需对徽州文书进行扫描、图像优化等前处理即可开展文本提取和数据加工工作;依托于建库系统,同步实现全文建设、字段标引和语义标注等功能,可进一步减少后处理步骤。二是提高工作效率并降低成本,识别时间仅为手工录入16.9%,校正平均识别率超过80%,较OCR提升超过25%;对中山大学图书馆需求而言,达到基本可用水平,所用到的设备及系统均有成熟产品,价格低廉,易于在原有建库系统上进行改造拓展,使得在现阶段开展徽州文书全文建库成为可能。三是降低对建库人员的要求,具备一定识字能力且普通话相对标准的人员经过简单训练后均可取得比较理想的提取效果,从而使众包具有应用优势。

语音识别在徽州文书数字化工作中具有多种潜在应用模式,从最简单的文本化到大规模多人在线知识化,语音识别均可发挥重要作用。不同收藏机构能根据资源规模、保障条件和技术水平,探索符合自身发展的应用模式。在市场上,智能录音系统、智能档案机等配套产品已出现,为应用落地提供了完善的支撑条件。在徽州文书文本化工作中,语音识别技术具有适用场景和重要的应用价值。

本文提出的方法还可以实现多维建库功能,从而产生有价值的衍生品,即与文书内容相一致的语音档案。这些语音档案将来可以被用到无障碍服务、多媒体融合、语言研究及二次创作之中。

4.2 不足

本文使用10页不同类型的徽州文书作为实验对象,虽然足以证明方法的有效性,但尚不能全面反映徽州文书的丰富性;实验人员较少,总体专业性较强,在广泛代表性上有所欠缺;实验的设计也可以进一步优化。因此,实验的结果可能存在一定的误差。本文所提出的应用模式仍有待实践的检验,目前中山大学图书馆正在研究开发相关小程序,更深入的数据分析与论证有待下一阶段实践工作的总结。

实验中发现,语言表达方式和偏僻字、同音字是影响识别率的主要问题,但本文并未进一步展开研究。除应用热词表和提供候选词外,如何针对徽州文书的用词特点建立领域词表,并逐步构建徽州文书深度神经网络模型以提升识别率,是深入应用语音识别技术开展徽州文书文本化工作必须面对的挑战。此外,单一技术的应用具有局限性,如何根据手工录入、OCR等不同方式的特点与优势,融合多种方法,构建更为合理的徽州文书文本化场景,也值得研究。

5 结语

在语音识别技术发展成熟的背景下,本文研究了利用语音识别提取徽州文书文本的新方法。相较于手工录入与OCR而言,该方法具有可行性,并且可以根据实际情况采取简单文本化、建库、语义化和大规模多人在线知识化等不同应用模式,具有适用性,是徽州文书数字化研究的一次有益尝试。目前市场上已经出现可用于规模化生产的语音识别工业产品,因此在现阶段及未来一段时间内,该方法具有应用价值,可为民间历史文献数字化工作带来有益的参考。

本文提出的方法虽然简化了徽州文书文本化工作的步骤、降低了成本并提高了效率,但作为一种间接应用,人的高度参与依然不可或缺,在开展大规模徽州文书全文建库工作时仍需要付出较大的人力成本。随着算法的进步和专业数据集的扩大,手写汉字识别将会不断取得突破。从技术发展趋势来看,OCR仍是徽州文书文本化最有价值的技术。就当前实践而言,如何融合语音识别、OCR等多种技术提升文本化工作的效率,仍是现阶段迫切且重要的课题。

注释

①实验时间:2020年12月4日,接口域名:ocr.tencent⁃cloudapi.com,利用GeneralAccurateOCR和General⁃HandwritingOCR接口实现刻印字体和手写字体识。

猜你喜欢

建库识别率徽州
高山仰止处 幽密跌宕地——徽州大峡谷
徽州春雪
徽州绿荫
基于类图像处理与向量化的大数据脚本攻击智能检测
基于真耳分析的助听器配戴者言语可懂度指数与言语识别率的关系
“数字温县”建设项目通过验收
提升高速公路MTC二次抓拍车牌识别率方案研究
高校图书馆回溯建库探微
中文期刊回溯建库的实践与思考——以贵州省图书馆为例
高速公路机电日常维护中车牌识别率分析系统的应用