APP下载

基于BERT-Att-biLSTM模型的医学信息分类研究

2020-04-09於张闲胡孔法

计算机时代 2020年3期

於张闲 胡孔法

摘  要: 目前,对互联网上虚假健康信息的研究多集中于谣言识别,而对医学信息自动分类的研究较少。采用基于双向编码的语言表征模型和注意力增强的双向长短时记忆模型(BERT-Att-BiLSTM模型),对健康信息文本进行分类,实现自动识别虚假健康信息。实验结果表明,BERT-Att-BiLSTM模型可以高效地對医学信息进行分类,其中BERT模型相较于BiLSTM模型,性能提升明显;与融合Word2Vec的BiLSTM模型相比,BERT-Att-BiLSTM模型效果更佳。

关键词: 健康信息; 语言表征模型; 双向长短时记忆模型; BERT-Att-BiLSTM模型

中图分类号:TP389.1          文献标识码:A     文章编号:1006-8228(2020)03-01-04

Medical information classification based on BERT-Att-biLSTM model

Yu Zhangxian, Hu Kongfa

(School of Artificial Intelligence and Information Technology, Nanjing University of Chinese Medicine, Nanjing, Jiangsu 210023, China)

Abstract: At present, the research on false health information on the Internet focuses on rumor recognition, while the research on automatic classification of medical information is less. In this paper, a language presentation model based on BERT (Bidirectional Encoder Representations from Transformers) model and Att-BiLSTM (Attention-based Bidirectional Long Short-Term Memory) model is used to classify the health information texts and realize the automatic identification of false health information. The experimental results show that the BERT-Att-BiLSTM model can classify medical information efficiently. The performance of the BERT model is significantly improved compared with the BiLSTM model. Compared with the BiLSTM model with Word2Vec, the BERT-Att-BiLSTM model is better.

Key words: health information; language representation model; bidirectional long short-term memory model; BERT-Att-BiLSTM model

0 引言

近年随着互联网的快速发展和人类经济与科学的进步,人们对自身健康越来越重视,促使互联网上健康相关信息呈现丰富、多样的特点。目前,有不少研究表明,网络上的一般谣言基本可以自动识别。但是,若要自动识别虚假健康信息却难以达到理想的效果。因为虚假健康信息往往似是而非,与真实信息相似度较高,需要具有一定的专业医学知识才能识别,这样的信息只有靠人工才能够识别。因此,自动高效地识别虚假健康信息的意义重大。

文本分类是自然语言处理(NaturalLanguage Processing,NLP)的研究热点之一。近年来,随着计算机硬件性能的提高、云计算、大数据等技术的成熟,深度神经网络取得了巨大的突破,在很多应用领域取得了颠覆性的成果[1]。目前,网上信息以短文本为主,由于短文本具有长度短、特征稀疏及上下文依赖性等特点,采用例如朴素贝叶斯(Na?ve Bayes,NB)和支持向量机(Support Vector Machines,SVM)等传统的文本分类方法,直接进行分类,分类效果不佳[2]。

深度学习方法将人工选取特征的过程,转化为通过数据自动学习特征的通用的学习过程,同时通过优化训练模型的参数,提高效率和精度,避免了人工选取特征的主观性和偶然性。2014年,Kim[3]将简单卷积神经网络(Convolutional Neural Networks,CNN)用于文本分类,提高了文本分类的准精确度,使得CNN成为NLP中最具代表性的模型之一,但CNN擅长学习文本的局部特征,忽略了词的上下文含义。循环神经网络(Recurrent Neural Network,RNN)能学习任意时长序列的输入,为了学习序列的上下语义关系,主要采用双向循环神经网络(Bidirectional RNN,BiRNN)[4]。但随着输入的增多,RNN对很久以前信息的感知能力下降,产生长期依赖和梯度消失问题[5]。从RNN 改进而来的长短时记忆模型(Long Short-Term Memory,LSTM)[6]利用门机制可以克服RNN的缺点。

近几年,注意力(Attention)机制在文本分类领域受到关注,且该机制在文本处理领域被验证为一种有效的机制,它的主要原理是通过动态学习不同特征对不同任务的贡献程度,将注意力集中在重点词上;就像人类视觉产生的注意力能够以“高分辨率”聚焦在图像的特定区域,同时以“低分辨率”感知周围图像,然后随时间调整焦点[7]。2018年,可以称之为NLP的一个重要的分水岭——ELMo[8]、OpenAI-GPT以及BERT[9]模型的出现,尤其是BERT模型,其刷新了11项NLP任务的之前最优性能记录。

本文以果壳网“流言百科”上的健康相关信息为研究对象,采用基于双向编码的语言表征模型(Bidirectional Encoder Representations from Transformers,BERT)和注意力增强的双向长短时记忆模型(Attention-Based Bidirectional LSTM,Att-BiLSTM),对健康信息文本进行分类,实现对虚假健康信息的自动识别。

1 相关研究

文本分类包含广泛的引用场景:垃圾邮件筛查、主题分类和情感分析等。近年来,深度学习在计算机视觉、图像、语音等领域取得了重大进展,但在NLP领域,深度学习的潜力并没有被挖掘,因此学者们开启了将深度学习应用于NLP领域的研究[10],从CNN,RNN到RNN的变型结构——LSTM和GRU等。同时,基于注意力机制的深度学习模型也得到了广泛的应用。潘晓英[11]等提出一种基于双向长短时记忆网络(BLSTM)和注意力机制的电商评论情感分类模型,实验表明,相较于传统的机器学习方法和普通的深度学习方法,论模型在准确率、召回率和F1值指标上均有明显提高,而且BLSTM模型的实验结果也明显优于LSTM模型。

2018年,ELMo、OpenAI GPT及BERT模型的出现,尤其是BERT模型一度被称为“NLP史上最强模型”。BERT模型是基于Transformer模型,它摒弃了常用的CNN 或者RNN模型,采用Encoder-Decoder架构。其本质就是一个预训练结构,先通过利用大量原始的语料库训练,得到一个泛化能力很强的模型,再进行微调参数训练,将模型应用到任意的特定任务中[9,12]。目前,NLP领域有些研究的核心都是基于BERT预训练模型。张培祥[12]结合BERT预训练模型和MMR模型,进行抽取式自动摘要实验,发现能提取出更符合人们语言逻辑的摘要句。杨飘提出BERT-BiGRU-CRF网络结构,在MSRA语料上进行训练,实验表明,该模型效果优于目前最优的 Lattice-LSTM 模型。

2 BERT-Att-BiLSTM模型

BERT-Att-BiLSTM模型如图1所示,主要分为三部分:先通过BERT模型训练获取每则文本的语义表示;再将文本中每个字的向量表示输入到Att-iLSTM模型中,进行进一步语义分析;最后将softmax层输出文本标签0(假)/1(真)。

2.1 BERT模型

对于文本分类任务,首先要将文本用向量表示,这一过程称为词嵌入(Word Embedding)。Mikolov等[13]于2013年提出了Word2Vec模型进行词向量训练,再应用于文本分类。尽管Word2Vec在不少领域都取得了不错的效果,但其使用惟一的词向量来表征一个词的多个语义[14]。与Word2Vec模型相比,BERT模型(如图2所示)采用的是双向的Transformer结构进行编码,其中“双向”意味着模型在处理一个词时,其可以根据上下文的语义关系,表征字在上下文中的具体语义。

预训练,是BERT模型的一个重要阶段,通过对海量语料的训练,使得单词学习到很好的特征表示。通过BERT模型训练得到文本的向量表示W:

其中W(i)表示第i则文本的向量矩阵,w(i)表示单个字的表征向量,n表示最大句子长度(max_seq_length)。

2.2 Att-BiLSTM模型

本文采用Att-BiLSTM模型进一步学习句中的语义关系,在正常的BiLSTM模型的输出层之前增加Attention層,采用Attention机制,核心在于生成注意力向量,通过与输入向量进行相似性计算,更新各个维度的权重值,提升重点词语在句子中的价值,使模型将注意力集中在重点词上,降低其他无关词的作用,进一步提高文本分类的精度[7]。

Att-BiLSTM由词嵌入层、双向LSTM层、Attention层及输出层组成,结构如图1所示:BERT模型作为Att-BiLSTM的词嵌入层,双向LSTM层为隐含层,将输入序列分别从两个方向输入模型,保存两个方向的信息,最后拼接两个隐层的信息,得到输出信息:

其中表示第i则文本的BiLSTM信息,表示第i则文本的前向LSTM信息,表示第i则文本的反向LSTM信息。

为BiLSTM的每个输出值分配不同的权重ω和偏置项b,计算出第i则文本中每个单词的权重:

通过softmax归一化,计算出各时刻一个权值:

其中uω表示随机初始化的注意力矩阵。

对每个时刻的与进行加权求和,得到Attention层的输出s(i):

将Attention层的输出s(i)作为输出层的输入,通过softmax对分类情况进行归一化处理,输出一个信息真假标签:0(假)/1(真)。

3 实验与分析

3.1 数据收集及预处理

“流言百科”是果壳网站开发的最新辟谣平台,该平台上包括食品安全、医疗健康等方面的健康信息。本次实验的数据集是通过ScraPy和BeautifulSoup等工具,爬取“流言百科”上发布的健康相关信息文本(截至2018年10月23日),最终数据集大小如表1所示。

3.2 模型参数设置

本文中的模型都通过TensorFlow实现,将Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作为对照,Word2Vec模型参数如表2所示。

BERT模型对硬件要求较高,条件限制较大,但此次实验的数据集较小,所以在进行BERT-Att-BiLSTM模型训练时,采用的是同时进行BERT和 Att-BiLSTM模型的参数优化,参数设置如表3所示。

3.3 结果分析

为了检验本文提出的基于深度学习的健康信息分类方法的有效性,将Att-BiLSTM、Word2Vec+Att-BiLSTM和BERT模型作为对照,与BERT-Att-

BiLSTM模型进行对比,实验结果如表4所示,融合Word2vec的Att-BiLSTM模型比简单的Att-BiLSTM模型在分类性能上表现更好。BERT模型相较于神经网络模型,性能提升非常明显;与BERT-Att-BiLSTM模型相比,BERT模型的性能略差一些,但是差距较小,可能是由于数据集较小导致提升效果不显著。

4 结束语

网络上的健康信息中含有大量的专业术语,虚虚实实,传统的文本分类方法并不适用。本文采用基于双向编码的语言表征模型和注意力增强的双向长短时记忆模型,对健康相关的信息文本进行自动分類,实验结果表明,与直接采用神经网络算法和简单利用BERT模型相比,该模型表现更加良好,在测试集的准确率最高可达到89.7%,比常用的神经网络模型准确率更高,也优于直接使用BERT模型进行分类。由于目前数据集还比较小,这也可能导致常用的深度神经网络模型的效果不甚理想,所以需要进一步扩大数据集,并尝试其他方法来进一步改进模型的性能。

参考文献(References):

[1] Lecun Y, Bengio Y, Hinton G. Deep learning [J].Nature,2015.521(7553):436-444

[2] 刘敬学,孟凡荣,周勇,刘兵.字符级卷积神经网络短文本分类算法[J].计算机工程与应用,2018.9:1-11

[3] Kim Y. Convolutional neural networks for sentenceclassification[C].in Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, (EMNLP14), Doha, State of Qatar,2014:1746-1751

[4] 李洋,董红斌.基于CNN和BiLSTM网络特征融合的文本情感分析[J].计算机应用,2018.38(11):3075-3080

[5] Bengio Y. Learning long-term dependencies with gradientdescent is difficult[J]. IEEE Transactions on Neural Networks,1994.5(2):157-166

[6] Hochreiter S, Bengio Y, Frasconi P, et al. Gradient flow inrecurrent nets: The difficulty of learning long-term dependencies. Kolen JF, Kremer SC. A Field Guide to Dynamical Recurrent Networks. Los Alamitos: IEEE Press,2001.

[7] 朱茂然,王奕磊,高松,王洪伟,郑丽娟.中文比较关系的识别:基于注意力机制的深度学习模型[J].情报学报,2019.38(6):612-621

[8] Peters M, Neumann M, Iyyer M, et al. Deep contextualized word representations. In Proceedings of NAACL,2018:2227-2237

[9] Jacob D, Ming-Wei C, Kenton L, Kristina T. BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding[EB/OL],arXiv,2018-10-11, https://arxiv.org/pdf/1810.04805.pdf

[10] 王莹.基于深度学习的文本分类研究[D].沈阳工业大学,2019.

[11] 潘晓英,赵普,赵倩.基于BLSTM和注意力机制的电商评论情感分类模型[J].计算机与数字工程,2019.47(9):2227-2232

[12] 张培祥.中文自动摘要模型及其应用[D].天津商业大学,2019.

[13] Mikolov T,Chen K,Corrado G, et al. Efficient estimation of word representations in vector space[J]. Computer Science,2013:1301,3781

[14] 龚丽娟,王昊,张紫玄,朱立平.Word2vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2019:1-19