基于人工智能技术的铁路电子公文数据智能化分析及关联方法研究
2024-02-10方义,齐鹤,陆鹏,张华,杨赓
方 义,齐 鹤,陆 鹏,张 华,杨 赓
(1. 中国国家铁路集团有限公司 办公厅,北京 100844;2. 中国铁路济南局集团有限公司 办公室,济南 250031;3. 中国铁路成都局集团有限公司 办公室,成都 610081)
随着现代信息技术不断发展,数据已成为21 世纪重要的战略资源。大数据及人工智能技术的精进为铁路的数字化、智能化带来新的发展机遇,也为企业管理和服务优化转型提供了新的工具和手段[1]。
目前,铁路电子公文系统及档案管理系统对电子公文的收集、管理与利用还是依靠传统模式。如何充分发掘铁路电子公文资源价值,改变传统电子公文管理模式,紧跟铁路电子公文大数据发展趋势,突破各类异构资源的框架格式,开发电子公文数据的智能采集、自动标引与智慧推荐等功能,进行铁路电子公文数据细粒度碎片化加工,实现铁路电子公文资源与其他办公系统横向协同、纵向贯通,构筑知识关联、集成与共享,提高辅助决策支持能力及办文效率,已成为亟需解决的问题[2]。
为更好地服务铁路发展战略,以数字化转型为牵引,以智能化发展为目标,优化电子公文数据,推动信息化与业务发展相互促进,加强新技术融合创新。本文结合铁路行业,研究基于大数据、人工智能、超大规模预训练模型等技术的铁路电子公文数据智能化分析及关联方法,分析关键技术,对铁路电子公文数据智能化分析远期场景进行有益探索。
1 相关概念
1.1 大数据
当前各行业对大数据定义不尽统一,大数据是一种海量级别的技术资料,需要通过特定软件工具对行业、企业数据资料进行管理及处理。大数据具有大量、多样、低密、真实、高速、先进等特点[3]。
1.2 人工智能
人工智能主要用于研究通过计算机完成过去只有人工从事的工作。其中,生成式人工智能技术,是指以文本、图片、音视频等形式生成相关内容的模型及相关技术[4]。
1.3 知识图谱
知识图谱属语义网络范畴。随着大数据应用水平的提高,知识图谱应用日益广泛。在铁路行业等应用场景,就是对数据进行挖掘、建模和智能化提取,建立铁路行业自身知识图谱概念模型[5]。
1.4 超大规模预训练模型
预训练模型是指通过训练大量基于铁路行业文本数据进行深度学习的智能工具,产生类似人类的自然语言及思考能力,在处理铁路行业复杂场景方面具有天然优势。当训练语言模型参数达到千亿级及以上级别时,即可称为超大规模预训练模型[6]。
2 电子公文智能化提升总体架构
电子公文智能化提升是以知识图谱和超大规模预训练模型为基础,从数据、技术、应用等方面对智能化提升进行的整体设计。自下而上可划分为数据层、技术层和应用层,如图1 所示。
2.1 数据层
数据层的功能是以电子公文场景中不同业务类型、多源异构的电子公文资源库为基础,构建电子公文数据语料库,为后续知识图谱构建、智能检索推荐和公文分析等工作提供基础数据支撑。主要包括公文数据调研、公文数据模型设计、公文数据接入、公文数据提取和公文数据存储。
2.1.1 公文数据调研
充分调研现有铁路电子公文资源,以及业务系统与铁路电子公文资源,理清公文类型、公文数据对象、公文数据关系、业务关系、数据结构、分类字典等,并明确数据整合方式和存储方法。
2.1.2 公文数据模型
确保数据安全存储,根据调研确定的数据对象、数据关系、数据结构等进行数据模型设计。
2.1.3 公文数据接入
建立对接和处理流程机制,满足不同类型、不同结构的公文数据同步更新,确保数据的一致性和完整性,并满足接入公文的扩展性需求;确保数据传输的稳定性、可靠性、及时性和准确性。
2.1.4 公文数据提取
对于文本型文档,解析其中的文本内容,将文本内容存储到本地,对于图片型文档,利用光学字符识别(OCR,Optical Character Recognition)技术识别图片中的字符,将识别结果存储到本地。适用于对文档中的文本内容进行提取,便于后续从中抽取需要的信息。
2.1.5 公文数据存储
设计库存储结构,分别存储格式化铁路电子公文及非格式化公文特征,实现整合库逻辑和物理模型创建,并对整合处理后的数据进行存储与性能优化。
2.2 技术层
技术层功能是依托大规模预训练模型、知识推理、自然语言处理和实体抽取等技术,通过概念抽取、上下位关系抽取及概念属性抽取等建模过程,实现知识图谱上层概念体系构建。对数据资源中各类数据进行分析处理,将结果数据封装成接口,为应用层提供数据资源规划、智能分类等智能化服务。主要包括认知赋能、数据支撑和助力交互功能。
2.3 应用层
应用层的功能是基于下层数据建设和认知赋能能力,支撑应用层公文智能标引、智能检索、辅助审批、智能拟办等功能。
3 关键技术
3.1 实体抽取
利用逻辑结构抽取及术语抽取方法,对电子公文进行实体抽取,如图2 所示。
利用概念及上下位关系生成方法,通过对术语抽取结果的分析,识别出文本中表示环境的术语词汇,识别出目标的场景词汇,达到理解词汇语义及后续发掘关系的目的。利用词语的概念及上下位关系生成、语义特征,进行多特征融合与图模型结合,运用基于多特征融合与图模型的关键词抽取算法获取各个公文实体间的关联关系及公文实体的分类特征[7]。根据实际的业务需求,结合处理分析好的模型算法,整合封装成自动化分类接口,实现公文录入到实体抽取、分类标记的自动化流程,为上层决策提供可靠的数据基础及支撑。
3.2 典型智能化算法研究
通过预训练大模型赋能,基于已构建的知识库,研究典型智能化算法,实现智能关联、智能推荐、推理检索等模型能力。
围绕公文知识库,通过语义标注、语义匹配等技术支撑,经标准化后进行关键信息抽取,基于知识语义知识理解算法集,利用数据挖掘、深度学习和知识发现技术,构建面向电子公文的智能检索服务,基于图谱技术,面向业务部门提供智能化检索服务,实现对于电子公文的文本检索、特征检索。
实现电子公文查询对业务精准推荐,基于公文分类、业务领域、检索文本分类等规则召回,在检索后自动推荐给用户适用的公文内容,实现电子公文对业务场景精准推荐;根据基于多路动态召回逻辑回归(LR,Logistic Regression)混排和优化版图卷积神经网络(GCN,Graph Convolutional Network)算法等排序策略,对推荐内容智能化排序。
3.3 公文内容完整性校验
通过语义理解、结构分析,针对同结构类型的公文,进行算法开发。利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值[8];使用语义检索召回算法,先通过语义表示模型将候选标准公文和请求公文进行语义向量表示,然后在相同的语义空间进行语义向量的相似度匹配。对得到的子主题序列及子主题之间的相似度值,建立最优匹配计算模型,对最优匹配的总权值进行规范化处理,即得到文档与标准化文档的相似度值[9],给出完整性校验结果。完整性校验如图3 所示。
图3 完整性校验示意
3.4 关键词提取
构建公文知识库的一个关键步骤是进行高效且精确的关键词提取。本文基于自回归预训练模型(GLM,General Language Model)和TF-IDF 算法,从大量文档中提取出最具代表性的关键词,为知识库的构建提供坚实的数据基础。通过前期电子公文业务分类、发文类型数据分析,确定了以中文切词和语义抽取为主的公文关键词抽取方式。
中文切词是分析的基础,包括数据清洗(去除噪声以规范化文本),项目采用TF-IDF 算法来从处理后的文本中提取关键词。该算法结合词频(TF,Term Frequency) 和逆文档频率(IDF ,Inverse Document Frequency),有效地评估每个词对文档的重要性,从而准确地识别出最具代表性的关键词。具体实现过程如下。
3.4.1 计算词频
词频(TF)=某个词在文档中出现的次数
3.4.2 计算逆文档频率
逆文档频率(IDF)=log(全文档总数/包含该词文档数)
如果一个词越常见,那么分母就越大,逆文档频率值就越小,反之,一个词越少见,逆文档频率值就越大。
3.4.3 计算TF-IDF 值
TF-IDF=词频(TF)× 逆文档频率(IDF)
语义抽取包括基本的分词处理和去除停用词,最关键的是运用GLM 大模型进行同义词和近义词的处理。这个模型凭借其高级的语义理解能力,有效地识别并整合了意义相近的词汇,优化了数据的一致性,确保了语义上相似的文档能够通过关键词进行有效关联。依据此流程,对所有公文提取关键词并保存到数据库中。
3.5 关键词筛选和词向量训练
关键词筛选过程不完全依赖自动化算法,更加注重专业的人工标注、基于场景和上下文分析。相应的业务人员对文本进行细致审阅,标注出特定领域或业务场景内高度重要性的词汇。重点识别出在统计分析之外,对特定领域或业务场景更具有代表性的词汇。在人工标注的基础上,结合初步的统计分析,确定一个阈值,用以自动化地筛选关键词。阈值的设定考虑到词汇出现频率、特定领域或业务场景内的相关性,以及业务专家的意见。
Skip-gram 模型被选为生成词向量的主要工具。该模型通过预测词汇周围上下文,学习词汇的表示。它尤其适合处理大型的词汇集合,并能有效地捕捉词汇之间的关系。在模型训练过程中增加了上下文窗口的设定,设置适当的上下文窗口大小是至关重要的。窗口大小的调整直接影响到模型对词汇关系的捕捉能力,较大的窗口能捕捉更远距离的词汇关系;较小的窗口则聚焦于更紧密的上下文。通过Skip-gram 模型,每个词汇被转化为高维空间的向量,这些向量能够表征词汇之间的相似性和差异性。这样的向量化处理不仅提供了词汇的量化表示,还揭示词汇间复杂的语义关系,为深入的文本分析提供支持。生成的词向量允许对词汇进行语义相似性分析。在公文场景中,可以用来识别相关主题、概念或政策的关联,甚至可以通过比较不同文档中词汇的向量来探究它们之间的隐含联系。
3.6 智能检索
对接梳理中国国家铁路集团有限公司(简称:国铁集团)提供的100 篇电子公文结构化文档建设电子公文数据语料库,通过公文标题、公文摘要、公文关键词设计Prompt 模板,实现公文输入后智能标签服务。主要是利用前文中关键词提取和词向量训练等阶段的成果,实现智能检索。
3.6.1 文本数据预处理
对收集的公文数据进行格式化处理,剔除无关信息,如特殊字符、格式错误等,确保文本数据的净化和标准化。使用关键词提取算法获得关键词的候选词集合。
3.6.2 特征提取
分析关键词的特征,提取词语的统计特征、结构特征、语义特征。利用本文提出的关键词筛选和词向量训练算法抽取算法提取词语的结构特征和统计特征;再利用GLM 大模型进行同意词向量扩充,再通过Skip-gram 模型训练获取词语的词向量,利用词向量的距离计算获取词语的语义特征。
3.6.3 多特征融合
将提取出来的词语统计特征、结构特征、语义特征进行有效融合,利用词语的统计特征和结构特征,计算获得词语自身的重要性权重;再利用词语的统计特征、结构特征、语义特征,计算获取相邻词语间的吸引力权重。
3.6.4 ChatGLM 模型的结合
结合ChatGLM 模型对TF-IDF 算法的结果进行优化,增强算法对文本上下文的理解,提高关键词权重计算的精确度,获取每个词语节点的最终得分。
3.6.5 检索优化
定期对检索算法的性能进行分析,收集用户反馈。根据性能分析和用户反馈对检索算法进行必要的调整和优化,以提升检索效率和准确度。
3.7 基于大模型的公文辅助核稿
基于文本内容的关键词提取之后,进行余弦相似度计算,确定文档的相似度。两篇文档的用词越相似,它们的内容也越相似,通过语义理解、结构分析,针对同结构类型的公文,进行完整性校验算法开发,实现辅助核稿功能。
(1)使用promet 方式研发语义语法、符号缺失、主语缺失、宾语缺失等4 种语义纠错算法。
(2)搜索互联网纠错训练语料,使用ChatGLM-6B 模型进行微调,实现语义错误的定位及纠错,但效果较差。
(3)使用ChatGLM-66B 模型对语义纠错任务进行蒸馏,实现细分领域纠错效果。
(4)爬取公文数据,使用之前纠错模型对缺字漏字进行增量预训练,强化纠错能力。
(5)使用编辑距离和余弦相似度等小模型,实现专有名词纠错服务,达到专有名词库可配置。
3.8 智能推荐
基于智能检索服务,结合相似度召回模型(QFS,Query Focused Summarization)完成文本推荐开发,应用于发文拟稿时,输入标题和段落,输出相似公文。
3.8.1 文本分类
通过规则与文本分类模型对读取的文件进行分类,确认其所属的业务类型,为更准确地找出潜在指标及与委办局之间的关联关系提供支撑。
文本分类主要包含特征表示和分类模型。特征表示是指将自然语言文本转化为数字向量的过程,主要包括Word2vec、N-gram、One-hot 等3 个方法;分类模型负责将数字化文本分类。分类模型分为浅层学习模型与深度学习模型,浅层学习模型结构较为简单,依赖于人工获取文本特征,虽然模型参数相对较少,但在复杂任务中能够表现出较好效果,具有很好的领域适应性;深度学习模型结构相对复杂,不依赖于人工获取文本特征,可直接对文本内容进行学习、建模,但深度学习模型对数据依赖性较高,存在领域适应性不强的问题。常见的浅层分类模型包括支持向量机(SVM,Support Vector Machine)、k 近邻(KNN,K-NearesNeighbor)、决策树(DT,Decision Tree)、随机森林(RF,Random Forest);常见的深度学习分类模型有卷积神经网络(CNN,Convolutional Neural Networks)、Transformer 等。
3.8.2 章节提取
针对内容较多的文件,分析目录和章节标题,找出有可能存在用户感兴趣的指标部分。该步骤主要功能是定位指标所在位置,减少对文档其余部分的处理操作,提升整体效率。
4 结束语
本文以铁路电子公文数据作为研究对象,从电子公文数据智能化分析及关联方法入手,利用大数据、人工智能、超大规模预训练模型等技术,为铁路电子公文数据智能化运用远期场景提供方法性探索。本文研究可为相关人员管好用好铁路电子公文数据资源,最大限度激活数据价值,提升铁路电子公文业务流程效率提供决策依据,从而更好地促进铁路电子公文数据资源共享,提高铁路企业决策科学性和办公效率。需要强调的是,必须在确保数据安全、优化高效的前提下进行相关研究。