APP下载

基于SVM模型的湿法脱硫专利文本主题划分

2021-07-12陶汉中

探索科学(学术版) 2021年4期
关键词:湿法专利词汇

徐 岩 陶汉中

南京工业大学能源学院 江苏 南京 210009

1 基于LDA的专利文本分类模型设计

利用LDA-SVM模型来进行分类,主要原因是能够克服SVM模型在进行分类时需求空间太多,在使用过程中能够避免文本考虑不全导致的分类不全面问题。利用LDA主题模型能够自动分布语义相近的主题特点,从中改进SVM主题分类中语义特点重复问题。

1.1 LDA模型建模 LDA模型算法每次进行分类时,需要每次选择概率向量,从而完成一个维度,保证其他的维度数值一致后,对新维度数值进行推算。不停的迭代让其收敛后得出估计的数值。在整个创建模型中,对主题模型的最终模型结构中的数值K造成直接影响。主题的差异对实验的最终结果也造成直接性的影响。

1.2 文档的主题向量提取 在进行SVM训练在前,首先要确定文本特征值的权重。通过了解准里文本的数据可知,专利文本的内容主要是将摘要、标题、主权等进行专利浓缩,其具有的特点词汇成为代表,摘要表达的意义作为词汇体现。在文档中,位置不同呢,特点词汇的代表程度也具有很大差异,例如在LDA模型中进行语料建模时,特点词汇在文档中的位置影响不做考虑时,文本的分类效果将受到严重的影响。因此,需要依据专利文本数据具备的特殊性,对特点词汇在不同位置时体现的信息差异进行体现,利用某一个位置的词汇加权来对文本主题向量进行计算。

2 分类器训练

2.1 实验数据获取与处理 实验中使用的数据主要来源为专利数据库中,以这些专利数据作为本次实验的文本数据,从中选择一万条与湿法脱硫相关的专利数据,然后从其中随机选择一定的文本数量,以选择出来的文本数据进行模型测试与训练样本。其中五千条作为模型训练数据,主要进行模型分类训练;五千条作数据作为模型测试,主要利用其来对模型分类的准确率进行检测。根据搜索,湿法脱硫文本中有16709条数据属,从其中选择1条至5500条当做实验检测数据。

2.2 实验过程 对于全部的实验文本数据进行处理与筛选时,专利文本中存在大量的连接性词汇与计量单位数据,因此,在进行语料清洗过程中,必须依据中文词汇表述来展开词汇分类,同时必须将专利文本里无意义的固定词汇添加带停用表格中。以上个章节作为基础,展开文本分类,对于摘要部分,依旧利用jieba分词处理。以相同的方式清除其中的介词、数量词以及定冠词等等,同时依据第四章节中的处理方式得出对其他特点造成影响的停用词。

本文主题数为8,将实验文本的数据和主题展开人为的调节,因此,本文以实验得出的数据作为主题标准。并且在主题数据为8时,表示训练数据和文本主题标准接近,因此,在LDA分析数据设立为:主题数K等于8,表示成50/K=6.25,超参数β表示成0.1,代数表示成500。

使用SVM进行数据分类时,必须设置参数设置。SVN属于二类分类器,与上文中的8类分类方式成为一对一形式实现方式是四种类型中选择两种类型,并且设计相同的支持向量机SVM,所以得出28个不同的SVM。在展开数据分类检测过程中,次数在其中最多的类型便称之为所属类型。本文利用LIBSVM进行方案分类。SVM中选择函数来计算高维空间,因此,必须设置LIBSVM核函数数据。假如m维空间的计算中存在问题,核函数的计算公式变为,n维空间的输入值表示为x和y,f(x)表示为x在m维中形成的映射,相同道理,f(y)也表示为y在m维中形成的映射。目前具有很多形式的函数值,例如线性、多项性、高斯以及Sigmoid等形式的核函数。因湿法脱硫具有不确定性,因此文本会使用高斯核函数来进行最终验证。提取特点词汇-主题概率的分布过程中,会对文本的特点词汇空间-主题的概率分布利用RBF核函数计算,通过10次验证后确定最终数据。

3 实验结果分析

本文利用Gibbs抽样方式选择出最佳的LDA的主题数据,得出LDA提取主题的方式,然后使用文本特点来实现SVM分类模型训练,最后得出LDA-SVM专利文本的分类模型。

LDA提取特点方式作为特点的分类方式,以主题为标签进行分类检测时,总体分类的准确率达到80%以上。依据F1数值的大小效果进行评价,数值越大,分类的效果就越标准,利用主题的特点展开分类能达到良好的效果。利用IPC标签分类方式进行分类时,得出的结果非常差,准确率约为50%。实验表明,利用IPC标签分类方式对对主题展开的分类结果非常不准确,造成其主要是因素为:1、IPC分类方式不能全面表示文本中的信息,专利文本中具有多个不同的主题内容。2、IPC分类不能对主题进行统计,同时也不能深入分类文本中的内容信息,分类出来的主题非常粗糙。从中可见,利用LDA主题分类方式展开的主题特点提取,能够将文本主题特点进行加密,从而了解文本特点中不具备语料的多种问题。在对专利文本展开文本分类时,利用专利文本中不同主题展开可行性分类,并且依据专利文本的主题数据展开详细分析。

4 结论

本文主要利用湿法脱硫专利分类方式来实现自动化模型分类,依据模型分类方式对湿法脱硫主题进行划分达到的效果。利用LDA模型分类方式来提取湿法脱硫摘要文本的特点,主要将文本主题的概率作为分类器的特点进行训练。最后得出依据湿法脱硫摘要文本主题的模型分类,其分类结果具有确定性,对于之前使用的特点提取分类器更加明确,同时还能解决语义问题和准确性问题,并且实现了预期设置的湿法脱硫专利主题的分类任务。之后在依据主题展开详细的文本分类,让整个文本主题的分类更加快捷,结果更加明确科学。

猜你喜欢

湿法专利词汇
生活垃圾焚烧飞灰湿法预处理研究
湿法脱硫除尘在流化床锅炉中的工程应用研究
本刊可直接用缩写的常用词汇
一些常用词汇可直接用缩写
本刊可直接用缩写的常用词汇
湿法脱硫除雾器性能及堵塞原因分析
词汇小达人
石灰:石膏湿法脱硫技术在公司的应用
2007年上半年专利授权状况统计