姚茂建 李晗静 吕会华 姚登峰
关键词: 自然语言处理; 中文分词; 神经网络; 双向长短时记忆条件随机场; 字嵌入; 序列标注
中图分类号: TN711?34; TP391.1 文献标识码: A 文章编号: 1004?373X(2019)01?0095?05
Abstract: The mainstream Chinese word segmentation method based on supervised learning algorithm requires a lot of corpora labeled manually, and the extracted local feature has sparse problem. Therefore, a bidirectional long short?term memory conditional random field (BI_LSTM_CRF) model is proposed, which can automatically learn the text features, and model the text context dependent information. The tag information before and after sentence character is considered in CRF layer, and the text information is deduced. The word segmentation model has achieved perfect word segmentation results on datasets of MSRA, PKU and CTB 6.0, and the experiment for the model is carried out with news data, MicroBlog data, automobile forum data and restaurant review data. The experimental results show that the BI_LSTM_CRF model has high word segmentation performance in testing set, and strong generalization ability in cross?domain data testing.
Keywords: natural language processing; Chinese word segmentation; neural network; bidirectional long short?term memory random field; word embedding; sequence labeling
0 引 言
1 神经网络模型在自然语言处理领域中的应用
长短时记忆(Long Short?term Memory,LSTM)网络是递归神经网络(Recurrent Neural Network,RNN)的一种变种,在很多任务上表现的比RNN更好,可以学习长期依赖信息。1997年,Schuster等人在LSTM网络模型基础上提出了双向长短时记忆(Bidirectional Recurrent Neural Networks,BI_RNN)模型,由于是双向输入,在记忆长时信息方面比LSTM更具有优势。以上述神经网络为基础的模型在处理与时间相关的序列任务中取得了很大的成功,通常模型都能对长短时依赖信息进行表达。
文献[3]对神经网络建立概率语言模型,该方法对n?gram模型有显著的改进,并且利用了较长的上下文信息。文献[4]使用神经网络结构处理中文自然语言任务,描述了一种感知器训练神经网络的替代算法,以加速整个训练过程。文献[5]将LSTM网络模型应用于中文分词中,以解决上下文长距离依赖关系,并取得了不错的分词效果。2016年,Yao等人提出采用BI_LSTM网络模型处理中文分词,该模型将过去和未来上下文中文信息都考虑进去,中文分词效果得到了提高。2017年,李雪莲等针对LSTM神经网络模型复杂、训练时间长等问题,提出基于GRU(Gate Recurrent Unit)模型,使得模型训练更加简化并且取得了与LSTM模型相当的分词效果。
4 結 论
本文主要研究了BI_LSTM_CRF神经网络来实现中文分词,实验中不仅使用MSRA,PKU,CTB 6.0数据集做了测试,比较了4词位标注与6词位标注模型的表现性能,实验结果显示6词位标注模型表现出了更好的分词性能。同时,采用6词位标注的模型对新闻数据、微博数据、汽车论坛数据、餐饮点评数据不同领域进行了测试,结果表明6词位标注的模型在跨领域中文分词也具有良好的性能,说明模型具有很好的泛化能力。
