船舶资料快速批量著录系统文本自动标引研究
2019-08-16马曲立
马曲立
(海军工程大学 教研保障中心,湖北 武汉 430033)
0 引 言
在船舶设计、制造、维修等过程中,将会形成海量图纸和技术文件、管理文件(简称船舶资料)。如何管理和处理这些资料,实现有效识别、快速查询、资源共享的目标,是摆在有关管理和技术人员面前的难题。信息化技术的发展使得数字化处理海量船舶资料成为可能。船舶资料分为纸质和电子2 种,就数字化过程而言,前者只比后者多了扫描和识别2 个过程,其余过程(包括著录、输出、共享和管理等)都是一样的。在这些过程之中,如何快速、简洁、准确、有规律地开展著录,是实现船舶资料数字化的关键。而著录的重要前提则是文本的自动标引,只有通过自动标引技术提取、归纳、凝练船舶资料中关键的、典型的、有代表性的信息,才能实施有效的著录和索引,从而实现真正意义上的数字化管理和共享。
1 船舶资料中文文本自动标引
自动标引是指计算机通过“阅读”文献的题名、摘要、关键词、正文等信息,按照一定的规则或方法来抽取该文献检索标识的过程[1]。目前,自动标引的规则或方法可分为语言分析、机器学习(即人工智能)和概率统计三类[2]。
语言分析方法试图将自动标引纳入语言学研究的范畴,利用语言学的原理和办法来解决自动标引这个语言问题,但准确率较低、通用性较差。人工智能方法是自动标引研究的热点,也是重要的发展方向,但该方法必须基于较为完善和及时更新的知识库、策略库和训练库,才能充分发挥其优势。概率统计方法历史比较悠久、研究比较充分,具有直观性强、通用性好、易于实现等特点,应用较为广泛和成熟。但也存在着不足:一是策略性不够,仅仅依据词频开展工作,不考虑单词出现的位置;二是准确率不高,容易受到出现频率高却意义不大的虚词、介词、助动词等的影响;三是容易出错,受限于已有的分词系统,对系统未纳入的单词,分词效果不太理想,甚至出现错误。
为此,综合应用人工智能和概率统计2 种方法。首先,建立知识库,将该库挂于分词系统的外围,作为其补充,解决分词出错的问题;其次,建立策略库,解决虚词、介词、助动词等问题,剔除这些无用词;第三,建立训练库,依据一定的数学模型根据单词出现的位置确定其权重。
文献[3]描述了单词t 在船舶资料d 中权重的计算方法:W(t,d)
从上述公式可以看出,该权重仅仅考虑了单词出现的频率,而未考虑出现的位置。实际上,某一个单词处于船舶资料的不同位置,其意义是大不相同的。因此需要引入位置权重P 的概念,改进和完善该公式。可以将某一船舶资料分为题名、摘要、关键词、标题、首段、尾段、其余共7 个部分[1],设定各部分权重P,则算如下[4]:
根据上述2 个公式计算出权重并采取人工智能方法构建专用的训练库、策略库和知识库后,按照一定的流程和规则,即可对船舶资料实施自动标引。图1为船舶资料自动标引流程图。
如图1 所示,将船舶资料分为电子和纸质2 种,前者直接进入自动标引阶段;后者因为需要数字化后才能进行自动标引,所以还应经过前期处理阶段。该阶段主要由以下过程组成。1)扫描。将纸质文件变成数字化标量文件。2)矢量化。将标量文件转换成矢量文件,以便于开展编辑、识别等工作。3)二值化。将矢量文件中的图形和文字分割开。4)文字识别。采用专门的文字识别系统对文字进行识别。自动标引阶段是需要重点关注的,由分词、剔除无用词和确定权重3 个过程组成:1)分词。采用标准化分词系统(比如Ictclas,Nlpir,Httpcws,Scws,phpanAlysis 等)将连续的字变成有意义的词,同时借助于知识库解决标准化分词系统还暂未收入的新词、专业词汇等,避免出现太大的错误。2)剔除无用词。开发并及时更新策略库,依据该库剔除掉出现频率高但对标引无用的虚词、副词、形容词、介词、助动词等。3)确定权重。按照一定的计算和规则,确定某一词的位置权重。最后,输出关键词并将关键词分类,其中关键词分类可以依据标准分类词库(比如中国分类主题词表)进行,甚至可以生成主题词与中图分类号的对应表。某些作者引入回归系数的概念对学术期刊知识交流效率进行评价[5],实际上的作用与权重相类似。
图 1 船舶资料自动标引流程图Fig. 1 Flow chart for auto index of ship drawing and file
2 自动标引结果的著录
纸质和电子2 种船舶资料的著录都是在ISBD 和ACCR2 的规则下进行的,但是侧重点不同。前者的主要信息源是其本身,遵守规则按照分类习惯进行著录即可;后者的著录则侧重于对电子资源性质的揭示和来源的链接[6]。自动标引结果的著录主要有2 种方法:一是基于元数据的多媒体信息分类检索,代表是DublinCore 元素;二是基于内容的多媒体信息分类检索,代表是MPEG7 标准接口。前者主要适用于电子文献的著录,后者主要通过定义一系列的方法和工具来描述和著录多媒体内容,起到检索标准接口、方便计算机自动分类检索的目的[7]。
无论是纸质还是电子船舶资料,也无论是基于元数据还是基于内容的多媒体信息分类检索,需要重点解决的是著录的准确性和效率问题。而著录的准确性取决于自动标引的准确性。要提高效率则应在2 个方面开展工作:一是尽量减少人工干预,让计算机来完成相关工作;二是尽量避免单文著录,应利用数据库、接口分析等技术对同类型、同专业、同性质、同时间的船舶资料进行批量著录。
图2 为快速批量著录界面。该批量著录的信息主要有文件名、文件序号、题名、主要责任者、文件大小、制作者、分类号、关键词、描述、制作日期和类型等,另外还规定了全部、当前路径、选中行和从选中开始等批量范围,以及全部字段、指定字段等批量著录操作字段,还可以对著录信息的完整性进行校验。据初步测算,通过对近万张船舶资料的著录实践,该快速批量著录方法可以显著提高著录效率。
图 2 快速批量著录界面Fig. 2 Interface of fast batch record
3 船舶资料数字化处理平台
图纸资料的数字化在地震模拟图纸处理等领域应用范围较广[8],船舶领域同样如此。目前船舶资料来源复杂、种类繁多、分布分散,客观上存在着使用效率不高、资源共享不够、集中管理偏弱等现象。需要建立一个具有强大数字化处理能力、牢固信息安全能力、规范信息管理能力、海量数据管理能力和有效共享保障能力的数字化处理平台。图3 为船舶资料数字化处理平台系统的主界面。
图 3 船舶资料数字化处理平台主界面Fig. 3 Main interface of digitalization system for ship drawing and file
数字化处理平台由软件和硬件两部分组成。软件包括扫描、矢量化、文字识别(含自动标引功能)、批量著录管理、信息管理等模块;硬件则包括B0 幅面的扫描仪和绘图仪等。
4 结 语
综合利用权重技术等实现了自动标引,能够按照一定的规则从船舶资料中自动选取具有代表性的关键词等信息,用作检索等管理之用。借助数据库等信息技术,研制出批量著录系统,极大地提高了著录的效率。最后在自动标引和批量著录的基础上,研制出数字化处理平台。该平台对有效开展船舶资料的数字化及其管理大有益处。