APP下载

基于语义的科技项目查重方法设计与政策建议

2022-05-11苏蒙沈映泉吕星星吴钰秀吴安波

内江科技 2022年4期
关键词:查重申请书语料库

苏蒙 沈映泉 吕星星 吴钰秀 吴安波

①云南电网有限责任公司电力科学研究院 ②西安科技大学管理学院

近年来,随着国家对科研项目扶持力度的增加,科技项目数量逐年增长,然而在促进我国科技创新事业发展的同时,无疑也增加了科技项目的查重难度。本文针对科技项目的查重问题,提出了基于语义的科技项目文本相似度检测方法,并以电力行业为例进行了验证。结果表明,基于语义的科技项目文本相似度检测方法在科技项目查重上是十分有效的。这种方法有利于进一步完善及提升科技项目管理的规范性、科学性,提高科技项目查重的效率和质量。

1 引言

为了推动科技的创新发展以及科技竞争力的提高,我国确立了“人才强国”、“创新驱动”与“科教兴国”等核心发展战略,同时逐年增加科技项目的科研经费投入,逐步形成多层次的科技计划资助体系[1]。随之而来的是科技项目申请量的逐年增长,2020年我国仅国家自然科学基金项目申请就达到281170项,与2019年相比增加12.19%[2],科技项目存在“多体系申报”、“重复立项”等问题[3],这些问题一方面造成了科技资源的浪费,另一方面使知识资产产生流失。

以下几个问题经常出现在我国科技项目查重工作中:①我国科技项目的信息公开以及共享程度比较低[4]。②目前对于科技项目查重主要采用关键词检索、构建文档相似度模型方式,通过人工判断是否与已有项目重复,缺乏有效的技术手段支撑[5]。③我国现阶段的科技项目查重工作没有深入挖掘项目文本的语义信息,导致交叉申报、重复申报的科技项目能够通过“洗稿”的方式通过相似性检测。

2014年3月国务院颁布的《国务院关于改进加强中央财政科研项目和资金管理的若干意见》和2015年1月《关于深化中央财政科技计划(专项、基金等)管理改革的方案》强调了科技项目管理体制改革的重要性,提出建立开放、统一的国家科技项目信息管理系统[6-7]。随着国家加强对重复立项问题的重视,不少学者在科技项目查重方面取得巨大进展。如林建海(2014)提出了一种基于关键词的项目语义检索方法,以及基于项目知识表示模型的相似度计算方法[8]。夏志明等(2015)通过提取关键词进行文本相似度计算,进一步提高了向量空间模型算法的精确度[9]。杨晓瑜(2020)针对科技项目重复立项问题,提出了基于深度学习的科技项目申报文本相似性检测方法[10]。陶秀杰等(2021)从算法实现与功能实现方面,研究了企业科技项目申报查重系统的设计[11]。本文梳理了现阶段的科技项目查重方法,并进行了电力科技项目申请书查重算法模型测试,最后给出了结论以及未来研究方向。

2 科技项目查重方法

科技项目查重是科技管理领域的一个十分重要的过程。科技项目查重指从已有的项目数据中通过文本挖掘和综合判断,确认是否存在与待查项目的研究内容相同或高度相似的项目的过程[12]。

2.1 基于词频-逆文档频率技术的相似度比较

词频-逆文档频率技术(Term Frequency-Inverse Document Frequency,TF-IDF)作为一种特征词提取技术而广泛使用,也是生成词向量的一个重要手段,用来评估词语对于文档集或语料库中文本的重要程度。如胡伟伟(2015)等提出了基于向量空间模型的项目申报书查重系统设计方法[13]。叶雪梅(2019)等提出基于网络新词改进文本分类TF-IDF算法[14]。然而,这种方法虽然对科技项目的申报文本进行了分词和权重计算,并对特征进行了排序和选择,但在降低向量空间的维数方面并不理想。

2.2 基于字符串编辑距离的相似度比较

编辑距离(Levenshtein distance)一般指的是将一个文本转换成另一个文本需要的最少编辑次数。编辑距离越小,两个文本越相似。例如,姜华(2014)等改进了字符串相似度度量公式和编辑距离矩阵计算方法。但是,基于字符串的方法不能充分掌握单词的含义以及单词之间的相互关系,不能对同义词、多义词进行处理。

2.3 基于语义的科技项目文本相似度检测方法

随着自然语言在表达上的同义性以及多义性,相似的表达内容可能代表完全不同的含义,因此本文基于循环神经网络在文本特征提取和自然语言语义表达上的应用,对文本语义进行更详细的区分。

循环神经网络(Recurrent Neural Network,RNN)通常用来处理序列数据,尤其是时间序列数据,它的最大特点是在某时刻输出的神经元可以作为输入再次输入到神经元。RNN的核心部分是一个有向图,在图中每一个按链式链接的节点称为循环单元。为解决RNN网络难学习到很长时间之前的状态的缺陷,长短期记忆网络(LSTM)进一步改进了RNN的循环单元。

在循环神经网络不断发展的过程中,文本向量化也引入了神经网络的方法,涵盖了以基于自注意力机制和上下文注意力机制的模型Transformer和RoBERTa-WWM等。神经网络模型Transformer是一种完全基于注意力机制用作翻译的神经网络模型。这种模型采用注意力机制,不需要遵循循环神经网络的顺序结构,所以对于文本Transformer也可以进行并行化训练,大大加快了训练速度,并且Transformer还可以获取全局信息,解决了循环神经网络很难学习到很长时间之前的状态的问题。在预训练模型中,对于文档中的每一个语句,通过RoBERTa-WWM(A Robustly Optimized BERT Pre-training Approach-Whole Word Masking)预训练模型提取其语义特征。RoBERTa-WWM模型经BERT模型发展而来。

语义文本相似度计算如下所示。

语义文本相似度计算(Semantic Textual Similarity)一般用来联系文本表示和上层应用。通常情况下,任意两个文本之间的语义差异,即语义层面上的相似度与文本相似度的值相反。因为人们的日常语言表达非常复杂,以及句法结构的多变性,使得语义文本相似度计算更为困难。学术界针对这些困难,通过大量的研究以及实践,针对语义文本相似度计算问题提出了一系列的模型及方法。

无监督学习方法可以在没有标记数据集的情况下计算文本之间的语义相似度。无监督学习方法的基本思想是通过自监督训练,对句子中的词向量加权求和得到句子向量,最后计算句子向量之间的距离来表示语义文本的相似度。这类方法有标签来指导模型,它在大多数训练集任务上的表现优于无监督学习方法。

3 电力科技项目查重流程

3.1 语料库构建

依据已有的电力项目申请书与可行性报告建立一个电力专业科技项目语料库,来为科技项目查和评审提供基础。语料库构建具体步骤如下:①将项目申请书与可行性报告使用python中的docx包读取转化为大型列表;②根据科技项目申请书与可行性报告的结构特点,采取字符串识别等方法提取出每个文档的重要部分(项目名称,申请单位,起止时间,项目负责人,联系电话,项目摘要,目的和意义等11项);③最后将提取出来的内容写入python字典结构中,将所有的字典结构写入一个json文件中。

3.2 文本相似度计算

基于语义的文本相似度检测方法首先对申请书进行结构化的内容提取,随后对其进行特征提取,得到每个句子的特征向量。进而计算句子间的相似度,通过池化的方式得到每段的相似度得分。最终进行加权相加得到文本相似度得分。

3.3 文本-向量映射

将文本相似度比较从小到大划分为语句,章节,文档,语料库四个层面。需要查重的文档与整个语料库中的文档进行相似度比较是语料库层面,两个项目的相似度比较是基于文档层面,而两个文档的相似度是由章节层面的相似度得到;每个章节的相似度又由每句话的相似度线性组合得到。

在语句层面,将一个章节中的所有语句使用BERT-wwm模型提取特征,如下图对《KJ2014001德宏电网电压无功优化与监控系统研究与开发》中的项目摘要进行特征提取,这一章节共5个句子,使用BERT-wwm进行特征提取后,每个句子转化为一个1×768维的向量,最后这篇文档的项目摘要转化为一个5×768维的矩阵。

3.4 段落相似度计算

首先,计算余弦相似度与欧氏距离得到句子的相似程度。在章节层面,将两篇文档的同一章节(记为A和B)进行比较,针对章节A中每一语句与章节B的几个语句,采用余弦相似度及提取出来的特征来计算两者之间的相似度。

之后,选取最大相似度作为章节A该语句的可能重复率。以《测试项目》和《德宏电网》的摘要为例,将这两部分使用余弦相似度进行计算,最终得到《测试项目》的每句话与《德宏电网》的相似度。

3.5 全文相似度计算

最后,在文档层面根据语料库中提取的11个部分,选取比较重要的5部分(项目摘要、目的和意义、项目研究内容和实施方案、项目研究的背景、预期目标和成果形式)作为查重的主要依据,并且给定每一部分的重要性程度,以上5部分重要性程度分别为0.35,0.1,0.35,0.1,0.1。之后根据上一步得到的每一部分重复率线性组合得到整篇文档的重复率0.652。

4 电力科技项目申请书查重算法模型测试

4.1 测试指标

首先,对相关的概念进行简单的介绍:真正例(True Positive,TP):表示将正类预测为正类。假正例(False Positive,FP):表示将负类预测为正类。真负例(True Negative,TN):表示将负类预测为负类。假负例(False Negative,FN):表示将正类预测为负类。语义相关性(Semantic Relevance,SR):表示词向量相关性。

4.2 测试集说明

测试集选取自云南电网电科院2021年度科技项目申请书数据库,合计90篇申请文档,对比的底库文件为云南电网电科院科技项目申请书数据库中2020年之前的2300篇科技项目申请书文章。

4.3 测试结果

90篇申请文档测试集查重结果和测试集测试结果如表1所示。

表1 两种测试集上的各指标测试结果

通过对基于语义的电力科技项目申请书查重模型的有效性及准确性验证可知:在实际的2021年度电力科技项目申请书上,准确率达到91.1%,召回率达到100%。因此,本次检测认为该模型在实际的电力科技项目申请书查重上有着优良的性能,可以作为电力科技项目申请书审核时的参考文件使用。

5 结论与未来研究方向

本文在对基于词频-逆文档频率技术的相似度比较和基于字符串编辑距离相似度比较方法进行简单的介绍后,深入探讨文本相似度的检测方法。然后以电力行业为例进行了验证,结果表明基于语义的科技项目文本相似性检测方法在科技项目查重方面非常有效。

本文提出的基于语义的科技项目文本相似度检测方法尽管在科技项目的重复检查中取得了一定的效果,还存在许多不足:①如何将循环神经网络用于科技项目的语义信息提取,是未来可能的研究方向。②为了进一步推动科技项目查重方法的落实,科技管理部门应积极的接纳新技术,不断提高自身的科研管理能力。同时,科技项目管理部门应加强对项目申请者的评审,要对项目申请者的项目管理能力进行考核,建立更加完善的绩效评估制度,并及时对已经结题的项目进行绩效评估。

猜你喜欢

查重申请书语料库
学位论文查重乱象引关注
平行语料库在翻译教学中的应用研究
《语料库翻译文体学》评介
学术论文该“查”什么?
论文查重别大意
学术论文该“查”什么?
三份特殊的《入党申请书》
韩国工委筹备成立申请书
语篇元功能的语料库支撑范式介入
入团感受