APP下载

液氧煤油发动机知识分类模型及自动分类标记平台设计

2023-07-01董秦刚

西安航空学院学报 2023年3期
关键词:液氧煤油文档

许 婷,董秦刚

(西安航天动力研究所,西安 710100)

0 引言

当前我国航天工业已进入快速发展阶段,实现航天工业高质量、高效率、高效益发展,意义重大,影响深远。为适应航天工业的快速发展,液氧煤油发动机型号研制任务越来越重、指标要求越来越高,一些制约发展的问题日益凸显。

在过去的液氧煤油发动机设计研制过程中积累了丰富的经验和大量技术文件资料、标准规范、图纸等资源,但这些资源较为分散,存在专业技术知识分类管理薄弱,缺乏体系化的分类管理,共享程度较低,自动化、高效的知识积累不足,隐形知识挖掘困难,知识复用率低等问题,难以支持快速设计迭代的研发模式。

为解决上述问题,本文采用人工智能技术对液氧煤油发动机各种资源进行知识智能分类标记的研究,构建知识分类标记管理体系,结合发动机研制业务系统,形成常态化、自动化的知识资源转化应用模式,希望能为知识资源的快速复用提供高效技术手段,为新型液氧煤油发动机设计研制提供支撑。

1 液氧煤油发动机知识分类现状分析

液氧煤油发动机研制是一项复杂的系统工程,经历了较长时间的发展,产生了大量有关液氧煤油发动机研制设计的技术文档、设计规范、基础数据等资源,建立了较为完善的理论。这些资源分散存储在不同的系统中且分类管理模式存在不同程度的差异,缺乏体系化管理,无法有效支撑液氧煤油发动机研制设计过程中的知识复用、创新。为有效管理这些资源,须对其进行分类、抽象、建模处理。

1.1 知识分类

1.1.1 全生命周期阶段划分知识分类

根据文献[1-4]可对产品全周期和知识分类进行处理。产品全生命周期是指产品从概念形式到回收的整个过程。按照产品全生命周期建模理论,可以将知识分为设计知识、制造知识、维护知识、回收知识等。

(1)设计知识。与产品设计过程相关,包括设计方法、结构设计知识等。

(2)制造知识。包括产品的BOM表、供应商知识、材料采购知识、检验知识等。

(3)维护知识。和产品维护过程相关知识、包括故障知识、维护方法知识、维护成本知识等。

(4)回收知识。包括回收方法、回收成本知识。

1.1.2 知识表现形式的产品知识分类

基于文献[5-7],可根据产品知识的表现形式,将产品知识分为文档类产品知识、数据类产品知识、程序类产品知识、协同类产品知识。

(1)文档类产品知识是以文档为表现形式的产品知识,包括设计文档、工艺文档等。

(2)数据类产品知识是以数据为表现形式的产品知识,包括设计参数、工艺参数、制造参数等。

(3)程序类产品知识是以程序来描述产品知识,包括设计中的CAE程序、计算程序等。

(4)协同类产品知识是通过协同工具来获得的产品知识,包括设计经验、工艺经验、维护经验等。

1.2 液氧煤油发动机知识分类

液氧煤油发动机知识有着专业技术性强、知识获取途径相对单一,规范化、结构化程度不同等特点。根据发动机结构组件类型可将液氧煤油发动机知识分为涡轮泵相关知识、推力室相关知识、阀门相关知识等。根据知识对象类型,液氧煤油发动机知识分为专业规范、设计文件、通用文件、基础数据等。根据结构化程度不同,液氧煤油发动机知识分为非结构化知识(没有特定格式的知识)、结构化知识、半结构化知识三类。

2 知识分类模型及自动分类标记平台设计与实现

通过信息化手段对支撑相应专业技术知识的资料进行收集整理,对液氧煤油发动机在研制设计过程中应用的专业技术资源有效、规范地梳理形成了液氧煤油发动机专业技术知识体系。该知识体系的资源包括:论文、期刊、设计图、各类标准、设计规范、故障归零及质量分析报告、研试文件等,须进行人工分类标记。

在前述工作基础上,构建知识分类模型及自动分类标记平台(以下简称平台),对这些资料进行文档特征提取及分类研究[8-11]。通过对知识所属的专业分类、知识类别、专业技术分类、关键技术分类等进行划分,完成了基于不同分类的文档知识的组织,实现新增技术成果的自动积累和分类标记,可更高效地支撑研制经验规范传承、辅助设计及知识重用。构建的平台包括:文档管理模块、分类模型管理模块、文档标记模块、词库管理、分类纠错模块等五部分功能模块,五个模块是平行并列关系,如图1所示。

图1 构建的平台组成结构图

2.1 总体方案设计

基于文献[12-13],将平台与PDM系统(产品数据管理系统)进行集成,充分获取液氧煤油火箭发动机研制过程积累的各类设计报告、分析报告等非结构化形式的文档资源并进行存储,也可将技术资料手动批量上传。通过文档批量特征将大量语义内容作为数据资源进行提取,再利用TF-IDF和Word2Vec等方法得到文档语义特征,构建基于语义的文档分类模型,并整合到知识分类标记系统中,以便对文档数据进行加工处理,利于液氧煤油发动机词库的生成与展示。

平台设计与开发基于B/S架构,平台可实现文档的自助标记分类,其总体框架如图2所示。该系统在可测试性、可修改性、可靠性和可移植性等方面均可满足需求,是稳定可靠,扩展性强的文档管理、模型托管、文档标记的综合平台。

图2 系统总体框架图

图3所示为系统具体技术架构图。由图3可知,该系统平台的文档批处理、分类模型训练、文档自动标注、词库可视化展示等功能以组件化实现,便于后续扩展和系统对接。

图3 系统具体技术架构图

2.2 知识分类模型及自动分类标记系统关键技术

以doc、docx、pdf(非图片类型)等非结构化文本类型的4万多篇液氧煤油火箭发动机技术文件资料为样本建立模型。通过模型的分类训练,最终可实现对文档知识分类、专业分类、专业技术分类、关键技术分类标记。文档知识分类结果示于表1,专业分类结果示于表2,专业技术和关键技术分类结果示于表3。

表1 文档知识分类

表2 专业分类

表3 专业技术与关键技术分类

文档分类及自动标记技术共涉及两项关键技术:文档规则如何产生和文档模型如何训练,即构建先验知识规则库和卷积神经网络模型并对结构特征文档和内容特征文档进行划分。文档划分时先对简单规则文档进行筛选分类,再对技术内容的文档采用内容训练模型进行划分。这样,一方面可加快模型的训练速度,另一方面可剔除部分干扰使得模型的准确率更高。

2.2.1 关键技术一:先验规则知识库分类

影响文档分类结果的主要因素是数据预处理效果和对规则特征分析的效果。数据预处理用来清洗数据,去除干扰内容,进行分词,方便分词后对文档结构进行分析,得到文档的规则特征。再根据构建的先验规则知识库是否与提取后的规则结构特征相匹配进行判断,匹配成功即可依据先验规则知识库确定文档的准确分类[14-17]。同时,也可不断迭代更新外部的先验规则知识库。

先验规则知识库分类技术具体包括以下几个步骤:

(1)数据预处理,包括去停用词,词频统计,单词权重计算,分词等;

(2)分词后对文档结构进行分析;

(3)提取文档规则特征;

(4)与先验规则知识库匹配分类。

(2)凝汽器:凝汽器喉部焊缝;凝汽器汽侧和热井人孔门;凝汽器真空破坏门;凝汽器汽侧和热井空气门、放水门;各真空泵进、出口管路及阀门;凝汽器热井至凝泵进口管路,凝泵抽空气管,凝泵轴端密封;凝汽器水幕喷水系统管路及阀门;凝结水再循环系统阀门;凝汽器检漏装置。

先验规则知识库分类如图4所示。

图4 先验规则知识库分类

2.2.2 关键技术二:文档内容训练模型分类

先验规则知识库分类技术具体包括以下几个步骤:

(1)数据预处理,包括去停用词,文本分词,词频统计,单次权重计算与分词等;

(2)文本向量化:从加权单词向量转化为文本向量;

(3)分类模型训练:将文本向量输入神经网络训练模型,训练分类模型参数。其中神经网络模型的实现基于TensorFlow与keras框架[18-20]。图5所示为文档内容训练模型流程图,图6所示为神经网络训练示意图。

图5 文档内容训练模型流程

图6 神经网络训练示意图

(1)TensorFlow框架。TensorFlow是目前比较流行的深度学习框架,TensorFlow是采用数据流图用于数值计算的开源软件库。流程图中节点表示数学操作,图中的线表示在节点间相互联系的多维数据数组,即张量。TensorFlow灵活的架构可在多种平台上进行计算。

先验规则知识库数据预处理,对先验规则知识库未能匹配的文档进行进一步的训练划分。文档分类模型的训练效果,一个重要影响因素是人工标注数据集的质量,人工标注数据的准确性以及不同类别间数据的平衡性都将对分类结果造成很大影响。另一个重要影响因素是文档特征提取,文本信息转化为数值信息是特征转化的一部分,当数值信息能最大程度保留文本原始语义信息时,最终分类结果准确率将明显提高。

2.2.3 关键技术总结

综合前述关键技术一和技术二即为平台的总技术路线,即通过技术一对简单规则文本进行筛选过滤后,针对主要的报告内容的目标文本再采用内容训练模型进行划分。这样结合的优点在于:一方面可以加快模型的训练速度;另一方面剔除部分干扰,将使模型准确率也明显提高。同时,模型还具备扩展性,对各类新增文档都可以有效地选择适合的技术路线进行分类标注。模型训练流程如图7所示。模型的文档批量分类标记流程如图8所示。

图7 训练文档模型流程图

应用以上两项关键技术对设计文档进行语义的提取与建模,其中,语义提取中关键词的提取及语义相似度的计算过程均在后台进行。在知识标记过程中,通过对知识所属的知识类别、专业分类、专业技术分类、关键技术分类等的划分,构建基于不同分类的文档知识的组织结构。

2.3 知识分类模型及自动分类标记平台的实现

2.3.1 系统开发环境及使用工具

知识分类模型及自动分类平台采用B/S架构,模型和平台前后端均具有良好的兼容性。前端支持Google Chrome、Mozilla FireFox、Microsoft Edge等使用广泛的浏览器,且支持HTTPS加密网络传输协议。因设计采用了前端分离的开发模型,前端对后端不同类的框架均具有较好的兼容性。后端使用Python语言的Flask Web框架进行开发,数据库使用主流的MySQL数据库,Flask Web框架和MySQL数据库均能很好地兼容Windows、Mac、Linux等主流操作系统,与此同时,系统还对外提供标准API接口。

模型和平台的软件环境配置如表4所示。

表4 软件环境配置表

2.3.2 系统主要模块构建及功能展示

(1)模型管理模块。分类模型训练是一个复杂的,不断迭代的过程。将训练好的分类模型进行集中存储管理,如图9所示。

点击“应用模型”选择需要使用的分类模型,再点击“新建训练任务”,对任务内容进行填写,填写完成后即可开始新的模型训练,这有助完善分类模型,使得分类模型的准确率更高。

(2)文档管理模块。文档管理模块对于系统获取的非结构化文档资料进行管理,管理的文档属性包括文档编号、文档标题、文档名称、文档版本、文档类型等信息。同时,对于已经进行文档分类标记后的结果进行存储,并显示文档的文档类型、所属零组件类别、专业技术、关键技术等四类信息的标记结果,如图10所示(图中涉密词已抹去,下同)。

图10 文档管理界面

2.3.3 文档标记模块

文档标记模块可以对新获取的非结构化的文档资料进行批量分类标记,文档标记结束后会有弹框提示,在右侧当前标记区域可显示标记结果,如图11所示。

图11 文档标记模块

系统可对标记的历史记录进行浏览或下载导出,方便管理人员使用,如图12所示。

图12 文档标记历史记录下载

2.3.4 词库管理模块

通过分类模型的特征提取进行数据的预处理,借助分词结果构建词库中的词语数据源。对获取的文档中所包含的部分有实意词语进行统计与可视化显示。

系统会在每日定时对新增文档进行分析,更新已有词库。进入系统后,首先点击左侧导航栏“词库管理”按钮进入词库管理页面,即可浏览系统中的词库数据。界面左侧为系统中已有的关键词数据,按频率由高到低的顺序排列,并显示了关键词出现的频数和关键词的类别,右侧为关键词所组成的词云,如图13所示。

图13 词库管理模块

2.3.5 文档知识分类纠错模块

该模块基于已有带标签文档训练知识分类模型,利用得到的模型分析历史文档数据,纠正错误标签。对于提供了手动人工标注的数据源文档,在其通过自动分类模型标注后对比前后标注情况,不同的标注可以有效帮助对人工历史标记错误或者模型标注错误的纠正,有利于知识常态化、规范化的积累和转换应用。文档知识分类纠错模块如图14所示。

图14 分类纠错模块

2.4 多系统集成

知识分类模型及平台与知识管理系统的集成,可实现一键登录模式,在方便管理人员登录查看、浏览知识分类标记结果的同时,知识分类模型及自动分类标记系统也实现了与PDM系统、知识管理系统之间集成,从数据源系统获取各类技术文件资料(非结构化文档)自动进行分类标记存储,构建知识自动积累、转换应用机制,为知识的快速检索及敏捷迭代设计提供有力支撑。图15所示为系统集成的界面图。

图15 系统集成界面

3 应用效果评估

对于液氧煤油发动机研制的文档资料进行分类标记处理,模型的准确率如表5所示。由表5可知,平台稳定有效,模型的分类标记准确率高于85%。

表5 液氧煤油发动机知识分类标记验证结果

应用结果还表明,该模型和平台能有效自动积累知识资源,形成常态化、自动化的知识积累机制。

4 结论

采用自然语言处理技术提取文档特征,运用规则知识库与神经网络模型,对液氧煤油发动机文档资料进行知识分类处理,可实现新增技术成果所属的专业分类、知识分类、专业技术分类、关键技术分类等维度的自动分类标记,形成智能化、常态化知识资源自动积累机制。应用结果表明,模型与平台的稳定性良好,准确率比较高。未来将液氧煤油发动机知识分类模型、自动分类标记平台与MES系统、知识产权与专利成功管理系统等业务系统进行系统集成,可对数据源进行知识的抽取、自动标记,构建机器学习和深度学习模型,实现实体和实体分类识别的模型,将实体和实体关系进行融合,形成知识点,对照液体火箭发动机专业设计规范,将知识点再次按以上步骤进行训练学习,形成专业知识条目库,辅助研发人员开展设计工作,支撑研制经验规范传承、知识成果有效重用和研发效率提升。

猜你喜欢

液氧煤油文档
浅谈Matlab与Word文档的应用接口
液动机引流式液氧煤油运载火箭推力矢量伺服控制系统
液氧煤油发动机氧系统双机耦合振荡频率特性
有人一声不吭向你扔了个文档
液氧甲烷发动机
为什么煤油灯需要借助灯芯才能燃烧
基于RI码计算的Word复制文档鉴别
正丁醇/煤油混合物非预混燃烧压力振荡特性
高能合成煤油GN-1理化性能及应用分析
基于低温绝热液氧瓶系统的中心供氧系统改造