浅谈针对明清小说文本的知识抽取方法
2020-05-21顾磊
顾磊
摘 要
明清小说历经数百的流传,已成为中华民族的文化瑰宝,而针对明清小说文本的知识抽取则是信息社会时代下古籍数字化研究的重要方式。本文首先介绍了文本知识抽取方法的研究现状,其次就当前明清小说文本知识抽取方法研究中存在的问题进行了探讨。
关键词
小说文本;知识抽取;中文分词;命名实体识别
中图分类号: TP391.1 文獻标识码: A
DOI:10.19694/j.cnki.issn2095-2457 . 2020 . 10 . 04
0 引言
明清小说的作者多出生或生活在江浙皖一带,与这一地区有着不解之缘。例如:《西游记》作者吴承恩江苏涟水人,后定居在江苏淮安;《儒林外史》作者吴敬梓安徽全椒人,后迁居至今日的江苏南京;《三国演义》作者罗贯中则出生于浙江杭州。由于小说作者的生活背景,这些明清小说内容多就地取材于当地的社会生活,反映了明清时期江浙皖地区的社会百态,例如《红楼梦》中的金陵指的就是江苏南京。因此明清小说在中国文化史和文学史上有着极其重要的地位,作为一种文化艺术的形式存在,小说表达了当时的社会愿望,更传播了积极向上的道德精神[1]。当今社会是互联网、大数据和人工智能的时代,在这样的时代背景下,如何利用智能技术进一步挖掘与研究这些小说的价值,并让其焕发出新的生命力,将是古籍数字化工作者研究的新的挑战,而首要的任务就是抽取明清小说文本中的知识。文本知识的抽取是知识库或知识图谱构建的基石,有利于搭建真正面向普通型用户和专家型用户的明清小说智能信息检索平台;而其意义不仅在于对中华文化的保护与弘扬,而且有助于为社会大众提供信息咨询及服务化功能。
1 文本知识抽取方法的研究现状
明清小说多为电子文本形式,而文本中知识的抽取如图1所示,主要分为:分词与词性标注、命名实体识别和实体间关系抽取等三个步骤。一个小说的电子文本先经过分词与词性标注,形成标注后的文本,再从该标注文本中提取相关实体,即所谓的命名实体识别,依据上下文环境再找出实体间的相互关联,即关系抽取,最后以实体及实体间关系为基础,构建小说知识库。
首先,分词与词性标注是知识抽取的第一步。分词是指将一个句子中的字符切分为词的过程,而词性标注则是为句中每个词赋予一个词性[2],分词与词性标注是中文信息处理的重要技术之一。传统的分词与词性标注方法大致有三种,即基于词典的方法,基于统计的方法和基于规则的方法[3]。例如:文献[4]利用分词词典建立Hash表,并利用最大匹配算法进行中文分词;文献[5]提出了统计方法与词典方法相结合的中文分词方法,该方法具有较好的领域自适应性;而文献[6]则利用统计和规则两者结合来进行汉语语义分析,从而实现对词语词性的标注。其次,命名实体识别是知识抽取的第二步。命名实体识别的主要任务是从文本中将人名、地名、时间、年份等专有名称和有意义的词语找出并归类[7]。传统的命名实体识别方法多是基于统计学习的,例如:文献[8]在分析词语前缀、后缀以及其他组合的基础上,利用条件随机场来进行中文命名实体识别。文献[9]提出了一种基于层叠条件随机场模型的中文命名实体自动识别算法。最后,实体间关系的抽取是知识抽取的第三步。实体间关系抽取的目的是从语言文本中辨别出若干个实体间所存在的语义关系[10]。同样地,传统的实体间关系抽取依然是以统计学习方法为主,例如:文献[11]将实体关系分为包含与非包含两类,并利用条件随机场模型进行关系的抽取。
近年来,随着深度学习技术的迅速发展,基于深度学习的知识抽取方法逐渐有替代传统方法的趋势,各种基于深度神经网络模型的中文分词与词性标注方法、中文命名实体识别方法和实体间关系抽取方法层出不穷。这里仅以近三年的一些文献中的方法为例。2017年,文献[12]提出了一种用于中文分词的双向循环神经网络模型,该模型的特点是以长短时记忆网络作为模型的隐藏层;文献[13]针对词特征错误较多的问题,提出了字特征和词特征相结合的深度学习模型,从而提高了中文命名实体识别的正确率;文献[14]提出了一种适合多语言文本实体间关系抽取的神经网络模型,该模型是对基于单语言注意力机制的神经网络模型的改进和扩展。2018年,文献[15]提出了一种简单而有效的sequence-to-sequence长短时记忆神经网络模型,该模型在对中文文本进行分词的同时,还可以进行词性标注,属于一种分词与词性标注联合模型;文献[16]探讨了深度神经网络在片段级中文命名实体识别中的应用;文献[17]提出了一种基于注意力机制的胶囊深度神经网络模型,并借助多示例和多标记学习方法来实现实体关系的抽取。2019年,文献[18]针对双向长短时记忆网络结构处理中文分词时输入特征不够丰富、语义不全等问题,提出了一种可用于中文分词的膨胀卷积神经网络模型;文献[19]提出了一种双重对抗迁移神经网络模型,并用于命名实体识别中;文献[20]提出了一种新的深度神经网络模型来实现端到端实体间关系抽取,而这种神经网络模型可以利用基于n-gram的注意力机制来获取相互间有关联的实体。
2 当前存在的问题
基于上节对文本知识抽取相关方法研究现状的总结,我们可以看出尽管当前知识抽取的研究如火如荼,但是针对明清小说文本的知识抽取研究仍然存在如下一些问题:
(1)明清小说中使用的语言多为古白话文,这与现代汉语有所不同,而当前的知识抽取方法或模型主要是以现代汉语文本作为语料库或训练样本集的,并不能直接适用或完全适用于明清小说文本的处理上。
(2)基于明清小说语言模式的语料库,即分词语料库、已标注词性的语料库、已标注命名实体的语料库和实体关系语料库,都比较少或都不够成熟。构建这些语料库将会是今后研究的重点。
(3)當前的命名实体识别和实体间关系的抽取多针对结构化或半结构化文本数据,而明清小说本文一般属于非结构化数据,其处理的难度远高于结构化或半结构化文本数据,因此这将是今后文本知识抽取相关方法或模型的研究中面临的巨大挑战。
3 结论
针对明清小说文本的知识抽取研究还处于初级阶段,缺少实用性和通用性强的方法或模型。如何借助当前现代汉语文本知识抽取方法研究的已有成果,将是相关工作的研究者们亟须解决的重要问题。相信随着今后研究工作的深入展开,明清小说知识抽取方法上的丰硕成果定会为相关知识图谱的构建以及智能信息检索平台的搭建打下坚实的基础。
参考文献
[1]韩亮.浅析明清小说及其在中国文化历史上的重要地位[J].商情,2017,(32):259.
[2]杨世超.古汉语分词与词性标注方法研究[D].华北理工大学,唐山,2018.
[3]梁喜涛,顾磊.中文分词与词性标注研究[J].计算机技术与发展,2015,(2):175-180.
[4]张海营.全二分快速自动分词算法构建[J].现代图书情报技术,2007,(4):52-55.
[5]张梅山,邓知龙,车万翔,等.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,(2):8-12.
[6]陈小芳,张桂平,蔡东风,等.基于统计和规则相结合的汉语术语语义分析方法[C].第六届全国信息检索学术会议,黑龙江牡丹江,中国,2010:488-495.
[7]孙镇,王惠临.命名实体识别研究进展综述[J].现代图书情报技术,2010,(6):42-47.
[8]Aaron L.F. Han, Derek F. Wong, Lidia S. Chao, Chinese named entity recognition with conditional random fields in the light of Chinese characteristics[C].Proceedings of Intelligent Information Systems Symposium, Warsaw, Poland, 2013:57-68.
[9]周俊生,戴新宇,尹存燕,等.基于层叠条件随机场模型的中文机构名自动识别[J].电子学报,2006,(5):804-809.
[10]武文雅,陈钰枫,徐金安,等.中文实体关系抽取研究综述[J].计算机与现代化,2018,(8):21-27.
[11]黄鑫,朱巧明,钱龙华,等.基于特征组合的中文实体关系抽取[J].微电子学与计算机,2010,(4):198-200.
[12]胡婕,张俊驰.双向循环网络中文分词模型[J].小型微型计算机系统,2017,(3):522-526.
[13]张海楠,伍大勇,刘悦.基于深度神经网络的中文命名实体识别[J].中文信息学报,2017,(4):28-35.
[14]Yankai Lin, Zhiyuan Liu, Maosong Sun, Neural relation extraction with multi-lingual attention[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, Vancouver, Canada, 2017:34-43.
[15]Meishan Zhan, Nan Yu, Guohong Fu, A simple and effective neural model for joint word segmentation and POS tagging[J].IEEE/ACM Transactions on Audio, Speech and Language Processing, 2018,26(9): 1528-1538.
[16]王蕾,谢云,周俊生等,基于神经网络的片段级中文命名实体识别[J].中文信息学报,2018,(3):84-90.
[17]Ningyu Zhang, Shumin Deng, Zhanling Sun, et.al., Attention-based capsule networks with dynamic routing for relation extraction[C].Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, 2018:986-992.
[18]王星,李超,陈吉.基于膨胀卷积神经网络模型的中文分词方法[J].中文信息学报,2019,(9):24-30.
[19]Joey Tianyi Zhou, Hao Zhang, Di Jin, et.al., Dual adversarial neural transfer for low-resource named entity recognition[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:3461-3471.
[20]Bayu Distiawan Trisedya, Gerhard Weikum, Jianzhong Qi, et.al., Neural relation extraction for knowledge base enrichment[C].Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, Florence, Italy, 2019:229-240.