基于神经网络与排序学习的智能文本挖掘
2018-10-21李海阔白强康芸玮
李海阔 白强 康芸玮
摘要:随着电子书阅读的增加,人们往往需要从大量文本中抽取部分有用信息。基于文本信息检索问题,首先对文本进行预处理,通过连续空间词向量模型生成了文本词向量,并利用剪支卷积神经网络建立了问句向量的生成模型,之后通过长短期记忆卷积神经网络对问题完成分类,再利用文档列表法让计算机通过排序学习对剩下的数据进行训练打分。最后通过不断训练调整得到训练结果最好的参数,将该参数下的打分函数投入到测试数据计算结果,并通过阈值计算和归一化处理最终得到所有测试数据的标签输出,最终答案检索的排名第一的准确率为65%以上,排名第二的答案准确率达到80%以上,一定程度上能够达到辅助阅读的作用。
关键词:神经网络;排序学习;文本检索;阈值
引言
日常生活中人们要阅读大量的txt文本,其内容可能是小说、教程、文集、词典等。很多情况下我们只是需要从文本中查找某一些片段来解决我们的问题。比如,通过查找法律文献中的一些段落来解决我们的法律疑惑,这时并不需要精读整个法律文献。因此我们希望智能阅读技术能够在这方面提供一些帮助。为此需将自然语言类的文本材料和相关问题转化成计算机可识别语言,再通过对问题的分类和分析,实现计算机对自然语言问题[1-2]的读取和理解,然后建立可靠模型对相关文本材料进行智能检索[3-4],最终稳定地实现计算机对正确答案的准确定位,以满足用户的实际需求。
1 词向量与问句向量
在进行所有操作前,首先对所有文本内容尤其是问题进行分词、去停顿词处理以及词性标注等预处理工作。
由于计算机不能直接识别自然语言,因此将文本内容转化成计算机可识别语言是必要的也是关键的一步。词向量技术就是一种将单词表征成为多维空间向量的方法,本文所采用的词向量生成方法主要是由Mikolov等人提出的连续空间词向量技术[5],该模型有效的避免了向量稀疏性和高维性等问题,具体方法是,首先随机初始化训练样本中出现过单词的向量,其次从训练样本中的第一个单词开始,用训练单词的上下文单词的向量更新训练单词的向量。
由于需要对文本进行检索,因而对于问句也需要生成對应的向量。相比于图像和语音识别领域,在自然语言处理中卷积神经网络不需要表征那么复杂的信息,语句用浅层网络表示即可。采用的问句向量生成模型对传统卷积神经网络进行了剪支处理,只保留了输入层、卷积层、采样层和输出层四层卷积神经网络[6]。问句向量生成模型的训练目标下所示:
式中:为由卷积神经网络生成的问句向量;为与向量属于同一类的抽样向量; 为不属于向量所属类的抽样向量。
问句向量由采样层经过全连接神经网络转换得到,采样层变换到传输层的函数[]。
式中:表示输出向量;表示采样层向量;表示加权变换时的权值信息。
2 答案检索
2.1 排序学习
进行答案检索前,采用的是一种基于长短期记忆卷积神经网络(LSTM-MFCNN)的方法[7]对问题进行聚类,以减少候选答案的选择空间。排序学习[8]是指在排序生成和排序整合中用于构建排序模型的机器学习方法,旨在使用机器学习的方法,根据有标签的数据解决排序问题。
对此针对性地采用了文档列表方法进行排序。将每个查询对应的搜索结果列表作为一个训练样例,通过优化最优评分函数F,对应新的查询,评分F对每个文档打分,然后根据得分由高到低排序,产生最终的结果,对于训练集中的数据,通过排序学习对每个问题所对应的不同文档中的各个段落不断进行打分,通过不断调整参数最终得到各段落的打分结果与段落0、1标签匹配程度最高的评分函数F,用于测试阶段对测试数据的打分排序操作。
2.2 参数训练
通过排序学习对文档进行评分之后,需要评定问题的答案是否位于该行,因而需要确定评分的阈值以完成对文档行的标记,即评分大于等于阈值,标记为1;评分小于阈值,标记为0。阈值的计算公式如下:
式中:为i个问题对应的评分阈值,为第i个问题最高分,为i个问题最低分,为权重且。
显然对于不同的问题,阈值选取并不相同,但要求使得整体的准确率较高,即:
因而需要对进行确定。评估指标F1为:
式中:为预测标签为的材料数,为真实标签为1的材料数。
3 结果展示
本文数据源于2018年第六届泰迪杯数据挖掘竞赛官网。
3.1 参数训练结果
对文本进行处理后,通过排序学习对问题进行检索,进而可对应生成各个passage的评分,同时还必须对对应passage进行标记,对于上优化模型,通过训练集中的3万条问题,通过排序学习生成评分,进而导入到优化模型,训练得到L值与F1的关系如下图。
显然根据图像,当L位于0.5-0.6之间时评价指标F1能够达到最大,具体计算求得L=0.55,F1max=0.54。
3.2 结果分析
针对问题的文档进行评分,显然按照评分进行排序,评分越高,则其为正确答案概率就越高,则理应作为最佳推荐结果,但实际上在排序中发现,当某些文档评分最高时,其却往往不对应为正确答案,进而讨论排名处于前三的为正确答案的比率,如下图所示。
排名前三的累积答案准确率如下图。
显然,由图可知排名为第一的对应答案准确率为65%以上,在排名前二答案中答案准确率超过80%,对于问题基本能够满足要求。
4 结语
结合数据,确定得分结果与标签最佳匹配状态下的最优参数,从而得到所有测试数据的标签输出。结果表明:得分最高的答案是正确解的比例达到 56.3%;得分前三包含正确解的概率达到83.8%,得分前五包含正确解的概率达到 92.9%。最终得到训练集的F1值为 0.54。对于文本存在多选答案的情况,能够起到较好的阅读辅助作用。
参考文献:
[1] 高明霞,刘椿年. 基于约束的自然语言问题到OWL的语义映射方法研究[J]. 电子学报,2007,35(8):1598-1602.
[2] 张琪玉. 关于自然语言检索问题[J]. 图书馆论坛,2004,24(6):211-213.
[3] 郭庆琳,樊孝忠. 自然语言理解与智能检索[J]. 信息与控制,2004,33(1):120-123.
[4] 晏创业,张玉峰. 智能检索中的网络数据挖掘技术探索[J]. 中国图书馆学报,2002,28(3):49-51.
[5] 胡学钢,董学春,谢飞. 基于词向量空间模型的中文文本分类方法[J]. 合肥工业大学学报(自然科学版),2007,30(10):1261-1264.
[6] 邢超. 智能问答系统的设计与实现[D]. 北京交通大学,2015:6-28.
[7] 谢逸,饶文碧,段鹏飞,等. 基于CNN和LSTM混合模型的中文词性标注[J].武汉大学学报(理学版),2017,63(3):246-250.
[8] 李超,柴玉梅,南晓斐,等. 基于深度学习的问题分类方法研究[J]. 计算机科 ,2016,43(12):115-119.
作者简介:
李海阔,男,1997,四川南充人,主要从事应用数学研究,15328079311,LHKfromswpu@163.com