自动标引在研究院知识资源自建数据库中的研究与应用
2022-10-18向彩霞毛瑞琪赵晓媛北京航天长征科技信息研究所
向彩霞、毛瑞琪、赵晓媛 /北京航天长征科技信息研究所
黄正轩 /正大夫国际管理顾问(北京)有限公司
王爱武 /中国运载火箭技术研究院
“十四五”期间,世界格局更趋复杂,航天发展作为战略博弈的关键砝码和经济增长的重要引擎,得到了世界各国的广泛重视。随着未来对航天产业持续加大投入,相应的知识资源也随之增加,如何充分发挥知识资源的最大效能服务科研,是中国运载火箭技术研究院
图书馆工作人员一直潜心研究和实践的重大课题,将有效的知识资源加以记录、整理、传承下来,建成研究院特色数据库。其中,最为关键的技术之一就是知识资源标引。笔者从知识资源的标引技术入手,结合知识资源管理工作,研究该项技术在研究院内部知识资源自建数据库中的研究与运用。以丰富航天一院知识资源管理,搭建内部知识资源管理的信息平台,促进科研生产模式转型和高质量发展。
一、知识资源标引定义及发展优势
1.定义
知识资源标引是对文献所涉及的主要内容进行分析、选择和描述,转换成文献特征标识的过程,文献特征标识是对文献进行再次组织排列的重要标记。其目的是将标引结果用于检索,通过检索将大量有用的信息提供给用户使用,服务于项目和科研。标引的质量和效率直接影响知识资源处理的质量和进度、数据库建设的规模,直接关系到检索时的查准率和查全率。随着全球化、信息化进程的加速,知识标引已广泛应用于所有文献、文档、网页信息等各类型信息,标引技术的发展已经成为知识资源建设的重要标志。
2.知识资源标引技术发展优势
知识资源标引技术经历了从完全人工标引向自动标引的转变。人工标引又称手工标引,是将文献主题分析和分析结果转换成检索标识的工作全部由标引人员完成的文献标引模式。自动标引是利用计算机自动给能表达文本信息内容的主题词或关键词的过程。自动标引技术按标引词的出处,可划为自动抽词标引与自动赋词标引两大类。自动抽词标引,由计算机系统自动抽取标引词,保证是文本中的词和短语,可以代表文本信息的主题内容。自动赋词标引是指从知识资源中查找受控词表中的控制词,选取能表示知识资源主题内容的特定词语的过程。目前,自动标引的研究主要集中于自动抽词标引,而关键词自动提取是自动抽词中的一种识别片段或词汇的自动化技术。
相比于人工标引,自动标引技术的优势主要体现在处理速度高速、处理能力强大、稳定性卓越、成本低廉。目前,自动标引发展成为知识资源主要的标引技术手段。中文自动标引的方法有很多种,各种标引方法各有优势又存在一定的局限性。笔者根据实现手段,主要从选词标引、全文标引和关键词标引3 种标引方式进行论述。
二、 工作与实践
研究院图书馆至今已经历60 余年的建设与发展,是一座拥有导弹航天专业特色的科技图书馆,多年以来,通过开展资源服务、科技查新、专题检索和文献研究,积累了丰富的工作经验,为型号研制、科研生产、重大事项决策等工作提供了有效的服务与保障。其形成了大量的具有专业特色的内部纸质文件、内部业务知识、图纸、档案、科技成果、标准、知识产权、多媒体资料、情报等内部资源信息以及外购的知网、万方、外文数据库等外部资源信息。但是资源信息管理分散、开发利用不足、共享渠道不畅,形成了资源的信息孤岛,需要建立一套完整的数据管理系统平台进行资源的统一管理和利用,实现信息统一的查询、获取,助力研究院管理决策、科技创新和成果转化管理,保障现有资源高水平、大规模创造与有效转化运用,促进自主研发和创新驱动高质量发展。
研究院知识资源自建库项目从2019 年开始策划、调研准备,历时3 年,通过知识资源标引数据平台,完成27 个特色专题数据库搭建,部署完成试应用,顺利通过项目验收进入推广应用阶段。该平台的实施落地是研究院知识资源自动标引技术的实践应用和技术创新,也是研究院内部知识资源库建设和推广的重要里程碑,标志着研究院图书馆在知识资源建设方面的能力提升和技术进步。
1.知识标引数据平台
图书馆于2000 年开始建设数字图书馆,2002年在内网向全院用户开放,其数据库资源主要依赖于外部数据库采集。经过20 年的建设与发展,设有图书馆借阅、中国知网期刊、万方博硕论文、外文数据库、外文电子书、超星电子书、国家科技图书、外文博硕论文、航天科技信息系统等九大数据库。
目前,本地数字文献资源总量近87T,非本地资源60T,分别占比59%和41%,年用户点击量近千万次。随着自媒体技术的发展,为进一步提升研究院数字图书馆文献服务能力,2019 年底,图书馆完成了掌上数字图书馆APP 的设计开发。2020年初上线,为全院读者提供文献资源服务,内容包括馆藏资源、中国知网、万方数据、外文题录、军事书目、精品文化、特色资源等模块。读者可以利用碎片时间,充分发挥智能手机的互联网优势提高工作和学习效率。
基于用户平台的知识资源建设与发展,以及海量的没有实现集中收集、标引和提供检索利用的内部有效知识资源现状,研究院图书馆需要利用自动标引技术将以上资源进行整合建库,开发并提供检索应用。为此,经过多方调研对比,图书馆与中国知网合作引入“STM 中文智能信息处理平台”,搭建研究院知识资源底层数据基础。
2.用户知识资源检索行为分析
基于中国知网知识资源总库的用户管理系统进行后台统计分析,随机抽取研究院院属各单位2021 年间用户检索数据进行用户检索行为分析,通过用户的检索项确定知识资源的标引项,具体数据如图1 所示。
图1 各类检索方式占比
用户采取的检索方式包括题名检索、作者检索、关键词检索、机构检索、摘要检索、全文检索及主题检索7 种,检索内容基本包含了基础的标引字段,大部分字段只需从知识资源内直接提取。通过对比检索方式,用户采取主题检索与全文检索的方式,分别占比50%以及26%,用户往往采取直观的检索方式进行知识资源的搜索,以快速获取所需的知识资源,为自动标引的项目实施提供了支持。
3.知识资源自动化标引方法研究
为了实现知识资源自动化高效标引,最大程度减少人为操作,使知识资源及时发布并得到有效利用,需配合相关计算机辅助系统进行操作。自动标引一般针对关键词或主题进行标引,通过从知识资源中提取出一组能最大程度上概括其内容特征、可作为用户检索入口的关键性信息,用该组信息对知识资源进行标引,使用户通过输入关键信息检索到该文档的简要信息。清华同方有限公司开发的“STM 中文智能信息处理平台”可实现以上目标,配合“KBase 全文数据库管理系统”“TPI信息资源建设与管理系统”,实现数据库建设、资源上传及发布、资源标引及使用一系列知识管理功能。
通过建立数据库的方式,确定标引字段并上传数字知识资源,通过“STM 中文智能信息处理平台”中的字符识别技术,利用各种模式识别算法分析文字形态特征,判断文字的标准编码;按通用格式存储为计算机的文本文件,实现让计算机认字、文字自动输入的过程。该技术已达到中文识别实用化成熟程度,准确性高。
基于用户行为分析、知网平台功能情况,从选词标引、全文标引和关键词标引3 种标引方式对该平台对知识资源自建库自动标引工作需求的全覆盖进行探索。
一是选词标引方式。基于“STM 中文智能信息处理平台”,对可以直接引用知识资源的内容作为标引内容的题名字段、作者字段、机构字段、时间字段、摘要字段。通过平台的“选择取词”“画框取词”等方式,利用字符识别技术(OCR)对适量文字及段落文字进行识别认字并完成标引内容的自动化填充,相较于人工输入标引内容,选词标引更加高效。
二是全文标引方式。全文标引若采用人工标引的方式,其难度难以想象,尤其是对于长篇的知识资源或文字信息不可采集的情况。全文标引唯一作用于全文检索,该检索方式始于20 世纪90 年代,最显著的特点是提供对海量数据的管理与快速查询,“文海捞针”是对全文检索的形象描述。全文检索的内含主要体现为待检索的源数据、检索对象是全文,使用的检索方式为针对全文匹配,检索结果是全文信息,需要将知识资源内所有文字内容设置为标引字段。通过ORC 字符识别技术,全文标引的难题迎刃而解。
三是关键词类标引方式。一般而言,知识资源中的关键词是文献核心内容的浓缩与提炼,关键词的标引对检索质量有至关重要的作用。从用户的检索习惯看,通过关键词检索的用户仅有1%。导致这一现象的问题在于关键词检索必须确保检索词与关键词之间的准确性,知识资源自带关键词由资源作者提供,数量较少,出现偏差会导致检索反馈。为此,如何丰富关键词一直是标引工作急需解决的问题,如通过人工标引的方式再次提取知识资源关键词将大幅增加标引的难度,实现关键词自动化标引。
关键词作为整篇知识资源的核心,一般在整篇文献中的出现频率占有很大比重,重复次数越高则越可能是知识资源的关键词。为此,词频分析方法也成为了最常用的关键词提取方式之一。如采取有效的技术手段将知识资源进行词频统计的话,则可以有效地将知识资源中出现频率最多的词语进行提取并筛选成为新关键词。“STM 中文智能信息处理平台”可有效解决这一问题。通过“STM 中文智能信息处理平台”的自然语言处理引擎与智能文本挖掘引擎,充分利用中国知网海量语料资源以及全学科概念关系词典,有效实现歧义切分和词语辨识,实现“关键词自动标引”功能。该功能可规定关键词提取的数量、标引源、关键词输出字段,最终实现基于词频的关键词自动标引。
4.知识资源自动化标引流程
一是知识资源数据库的建立。利用“TPI 信息资源建设与管理系统”,根据知识资源类型建立相应数据库,用于对知识资源进行整体分类。数据库建立可依据知识资源类型或知识资源专业或专题进行个性化建设。
二是标引字段的选取。数据库建立过程中,需选取通用于该数据库的标引字段,标引字段的选取可依据知识资源类型列举的字段,也可自行编制标引字段的名称、规定字段长度、设置是否必填。
三是标引文本的导入。数据库建立完毕后,向数据库内导入待标引文献文本,文献文本格式为PDF。
四是基本标引字段的标引。数据库建立完毕导入待标引知识资源后,通过“STM 中文智能信息处理平台”对知识资源进行标引,待标引字段为建立数据库过程中所选取的标引字段。选择待标引字段后,利用系统自带的取词功能,在知识资源文本内进行选取,通过ORC 识别后转化为文字编码并自动完成字段值填充。
五是关键词类字段的标引。关键词自动提取需要利用“QBE 数据查询工具”,此工具可实现对同一数据库下的所有知识资源同时进行关键词自动提取。提取前可配置关键词的提取数量、多个标引源以及输出结果的标引字段,系统将根据系统词表对选取的标引源进行处理,提取关键词并反馈填充至相应的标引字段。
六是人工校验。完成所有标引字段的标引工作后,工作人员通过“STM 中文智能信息处理平台”查看关键词自动提取后的结果,对标引结果进行审核与修订,确保所有标引字段完成无误后保存,完成标引工作。
二、 实践效果及后续思路
经过该项目实施,基本实现了研究院自有特色数据库建设从无到有的里程碑变化,开启了图书馆知识资源自建库时代。基于图书馆自主开发和收集的知识资源和同方、知网的“TPI 信息资源建设与管理系统”进行知识资源导入、标引及发布。
1.实现了知识资源数据库集中管理
基于研究院航天运输总体技术论文集、研究院新型动力技术及应用论文集、研究院仿真与虚拟实验技术论文集、高空风修正资讯、新智能技术发展资讯、国内外航天政策资讯、伺服资讯等,进行数据库建设、数据标引以及归类发布。通过“KBase全文数据库管理系统”建立“航天运输总体技术”“新型动力技术及应用”“仿真与虚拟实验技术”、高空风修正资讯、新智能技术发展资讯、国内外航天政策资讯等数据库。建库完毕后,依据标引字段选取内容,结合知识资源实际设置数据库标引字段。该项目一期共建设27 个数据库,所选取的标引字段取自于已有知识资源类型模板内的字段,选取过程中可对字段属性进行编辑,更改字段名称、字段长度以及是否空项或必备。
标引字段选取完毕后,即可向数据库内添加知识资源,开展标引工作。除此之外,数据库管理支持分类导航功能,可对单一数据库进行知识资源分类,如依据研究院航天运输总体技术专业组会议集自有分类,新建“发展战略”及“关键技术”两类导航。
2.完成知识资源标引,将技术研究转化为项目实践
完成数据库建设及知识资源导入后即可通过“STM 中文智能信息处理平台”逐一对知识资源进行标引。文本区显示所需标引的知识资源文本,编目区展示知识资源所在的数据库设置的所有标引字段,选择相应标引字段后可于文本区内选词或框词进行填充,填充内容在标引数据区展示并可进行二次编辑。
相较于传统的手工标引,使用“STM 中文智能信息处理平台”能够有效实现标引过程与标引结果输出的一体化。标引过程中,提取知识资源原文的标引数据标引操作简单,无需进行二次核对,在标引速度和文字处理效率上有显著提升。
除提取来源于知识资源内的标引内容外,为实现知识资源检索的全面性,还需对特定的标引字段进行补充,其中关键词标引字段可采取自动化标引操作。关键词扩充是利用“QBE 数据查询工具”执行,可对单个数据库内的所有知识资源进行批量操作,通过设置关键词提取个数,选取需操作的数据库表,选择关键词的提取位置,提取关键词输出字段位置,最终获取由系统根据词表所获取的关键词,将反馈至对应的标引字段下。一般而言选择提取的关键词数量越多,提取的准确性越差,且与知识资源自带关键有重叠的情况时,需再次通过“STM 中文智能信息处理平台”进行二次筛选。
主题检索通过设置主题标引字段可实现用户的前端检索操作,为达到标引的快速简便化,主题标引暂采用“题名+摘要+关键词”的标引方式,即主题标引的内容涵盖题名、摘要、关键词的标引内容。
该项目实施可以将组织内部大量长期存储的有效的知识资源进行标引,发布提供使用,大大提高了内部知识资源的利用效率,也有利于知识资源的延续和传承,特别是专题数据库的建成,可有效服务于组织内部各项目建设。
3.实现知识资源发布,为科技工作者提供自有资源统一检索的平台
实现对所发布的数据库的集中展示;对一个或多个数据库内知识资源进行检索;合并多个数据库形成专题展示。这些功能可基于后台管理进行个性化配置,配置内容包括数据库发布,使“TPI信息资源建设与管理系统”关联数据库;发布设置,配置单个数据库的检索字段、概览字段、细览字段等;跨库检索设置,使多个数据库进行统一检索。
目前该项目建设仅涉及数据库的建设,由于经费及建设周期等原因,内外部知识资源跨库检索功能的建设将依托其它项目逐步实现。
4.后续思路
研究院图书馆利用TPI 建库向导创建数据库,开展知识资源标引,明确标引字段项目,着重研究关键词标引方法,严格关键词选词规范与校验,以便用户能高效检索所需的知识资源,该项目实施在各专业领域具有很好的应用场景。但是,知识资源标引工作是一个长期繁琐的工程,目前该系统自带的概念词典还无法完全满足关键词提取的准确性,只有通过不断对知识资源进行数据分析及机器学习,逐渐形成研究院自建库专业词表,才能持续不断推进此项工作长远发展。基于此,该项目第一阶段实施之后,不断提升用户对自动标引和机器学习的认识,并不断积累和完善丰富研究院自有专业数据库,依然是图书馆未来为之不懈努力的目标。