基于LabVIEW的通用飞机铅酸蓄电池测试系统设计
2021-01-06吕伟张逸群胡天翔孙亮
吕伟 张逸群 胡天翔 孙亮
摘 要:设计了一种基于决策树算法的N1+N2结构语法关系判定方法。首先建立了该结构的语料库,对每条语料都标注构建特征集所需的词性、《同义词词林》语义编码、语法关系和词义相似度等信息;然后为证明相似度在判断语法关系中的合理性,根据语言学原理研究了N1+N2结构两个名词间语义相似度与语法关系之间的内在规律:①从语法关系的角度比较两个名词间的语义相似度结果为:并列关系>复指关系>定中关系>主谓关系;②从语言功能焦点的角度比较两个名词间的语义相似度结果为:并焦型短语>后焦型短语。最后以此为基础构建了特征集,运用决策树C4.5算法建立了自动判定N1+N2结构语法关系的方法。运用该算法在自建语料库的测试集中进行测试,正确率为89.39%。
关键词:词义相似度;《同义词词林》;短语层级;语法关系;决策树
中图分类号:TP391.1 文献标识码:A
短语层级语法关系判定是自然语言处理中的重要基础性研究,其研究成果在信息抽取、信息检索、机器翻译等诸多领域都有着实际应用[1]。在自然语言处理过程中,短语是词和句子之间的过度层级,短语层级的语法关系判定结果对于词层级的信息标注具有重要的验证作用;对于句子层级的信息标注也起到至关重要的基础性作用。
N1+N2结构是中文信息处理中的高频短语结构,从语法关系角度可以分为“并列、复指、定中、主谓”四种关系类型的短语[2-3],对N1+N2结构语法关系判定问题实质上就是对一条语料进行四种关系的分类问题,对于该结构语法关系的准确分类,将会提升自然语言处理在实际应用领域中的使用效果。
决策树(decisiontree)是一种基本的分类技术,被广泛应用于中文信息处理[4]、食品安全[5]、医疗诊断、天气预报和金融分析等领域[6]。一棵决策树的内部结点是特征或特征的集合,叶结点是所要学习划分的类,它采用自顶向下的递归方式,对决策树内部结点进行特征值的比较,根据不同特征值判断该结点向下的分支,每个叶节点都存放着类预测,跟踪一条由根到叶节点的路径,就可以在决策树的叶结点得到分类结论[7-8]。
本文拟运用应用较为广泛的决策树C4.5算法建立了N1+N2结构语法关系的判定方法,在已有研究成果的基础上构建了语料库,并为每个结构标注了构建决策树算法需要的特征信息。本文剩余部分结构如下:第1部分总结了N1+N2结构两个名词的语义相似度与语法关系的规律;第2部分介绍了本文构建和使用的N1+N2结构语料库;第3部分对N1+N2结构词义相似度与语法关系进行了分析;第4部分给出了具体的语法关系决策树判断方法和相应的实验结果;第5部分对本文结论进行了总结。
1 N1+N2结构语义相似度与语法关系规
律总结
从语言学角度来看,短语是在语义和语法上都能搭配、没有句调的一组词,是造句的备用单位。短语是由词构成的,构成短语的所有词的特征属性对于短语内部语法关系起到决定性作用。下面具体分析N1+N2结构四种语法关系短语:
(1)并列关系短语:由语法地位平等的两个名词在一起组成,两个名词之间可以进一步细分为并列、递进和选择关系,如哥哥姐姐、宾馆饭店。
(2)复指关系短语:前项和后项虽然词语不同,但所指是同一事物,有互相说明的关系,且语法地位相同,如诗圣杜甫、厂长老李。
(3)定中关系短语:由修饰或限定关系的两个部分组成,前面的名词作定语,后面的名词作中心语,定语修饰或限制中心语,如教工宿舍、经济热点。
(4)主谓关系短语:由陈述关系的两个成分组成,前面被陈述部分的名词是主语,表示要说的是谁或什么;后面陈述部分的名词是谓语,说明主语是什么或怎么样,如今天星期天、病毒阳性。
词性相同的情况下,产生不同语法关系的主要原因还是由于词本身的语义类别及词与词之间的语义关系不同而造成的。词与词之间的语义关系对其语法关系起到决定性作用。两个词之间的语义关系可以用词与词之间的语义相似度来衡量,因此如果计算准确,詞义相似度应该可以用来判定两个词之间的语法关系。词义相似度是对给定的词语间语义相似或相关程度的衡量,通常使用[0-1]之间的数值来表示,词义相似度越大说明两个词的相关性越大,紧密程度也越高,当相似度值达到1时两个词是等义词。目前词义相似度计算的相关研究较多,计算方法主要分为两大类[9]:一类是根据某个语义分类词典,如《知网》、《同义词词林》等进行计算[10-13];另一类是在大规模语料库的基础上直接统计和计算[14-15];也有一些研究是将这两种方法结合在一起计算词语相似度的[16]。
文献[17]指出在由前后两个句法成分组成的句法功能结构中,句法功能的着重点可能有所不同,这种着重点叫做功能焦点。有的结构功能焦点在前,有的结构功能焦点在后,还有的结构功能焦点是并列的。从句法功能焦点的角度来看,并列关系和复指关系N1+N2结构中两个名词语法地位相同,属于并焦型短语;而定中关系和主谓关系N1+N2结构中功能焦点都在第二个名词,属于后焦型短语。语法地位相同的两个词的语义相似度应该高于语法地位不同的两个词的语义相似度,因此并焦型短语中两个词的相似度应该高于后焦型短语。首先来看并焦型短语,在N1+N2结构中并列关系的两个名词在语义上相等或相近,常常是同义词或等义词关系;而复指关系短语虽然所指相同,但指向同一事物的两个词却常常不是同义词关系,因此并列关系短语内部两个名词的语义相似度应该高于复指关系短语。其次再来看后焦型短语,定中关系两个词在语义上是修饰或限定关系;主谓关系两个词在语义上是陈述或说明关系。从语义关系来看,定中关系内部两个名词间的相似度应该比主谓关系更高。
基于以上分析,N1+N2结构两个名词在语言学上具有如下规律:①从语法关系的角度来看,N1+N2结构四种语法关系内部两个名词间的语义相似度从大到小的顺序为:并列关系>复指关系>定中关系>主谓关系;②从功能焦点的角度比较两个名词间的语义相似度,并焦型短语>后焦型短语。
2 N1+N2结构语料库简介
自然语言处理领域中对N1+N2结构的研究一般都是在对语料库分析的基础上进行的,研究的主要目标是针对N1+N2结构的自动提取和识别[18]-[20],而在语料库基础上运用语义类别及语义相似度自动判定语法关系的研究还鲜少有人涉及到。因此本文自建了N1+N2结构语料库,建库过程如下:
2.1 语料提取和筛选
首先从北京语言大学BCC语料库中自动提取出N1+N2结构语料共17108条,这些语料来自四个子语料库:人民日报海外版、人民日报、文学、科技文献。经过计算机自动筛选和人工校验后,去掉各种情况的不合格语料,最后剩下合格语料共10398条。
2.2 短语语法关系标注
将10398条合格语料进行语法关系标注后重新建成“定中、并列、复指、主谓”四个子库,每个子库中的语料标注均经过人工校对,将各关系数量及比例整理后,详见表1所示。
语料库中还存在大量重复语料,因此又对语料进行了去重处理,剩下不重复合格语料共5098条。
2.3 名词语义编码标注
《同义词词林》是梅家驹等1983年编撰的机用语义词典[21],后经哈工大研究人员扩展为《哈工大信息检索研究室同义词词林扩展版》(本文简称《词林》)。本文为N1+N2结构每个名词自动标注了其在《同义词词林》中的语义编码,目的是为了计算词与词之间的语义距离,寻找词的语义类别与短语语法关系之间的规律。
经统计,《词林》共有近8万条词语,分别属于12个大类,95个中类,1428个小类。《词林》使用8位编码来表示词语义项,如编码“Aa01A01=”,第1位编码“A”代表大类,用1位大写英文字母表示,是第一层;第2位编码“a”代表中类,用1位小写英文字母表示,是第二层;第3、4位编码“01”代表小类,用十进制整数表示,是第三层;第5位编码“A”代表词群,用1位大写英文字母表示,是第四层;第6、7位编码“01”代表原子词群,用十进制整数表示,是第五层。前7位编码可以唯一表示一个原子词群,第8位编码主要用来表示原子词群内部词语之间的关系,共有三种情况:“=、#、@”,分别表示原子词群中词语的关系是“同义词、相关词、独立词”。
在《词林》编码体系中,每个大类都是五层8位编码体系,如果将第一层作为根结点,第五层作为叶子结点,从根结点到叶子结点的每条路径都代表一个语义编码,每个大类都可以用一个树形结构图表示出来。前面四层结点都代表抽象的语义类别,只有第五层叶子结点中才是具体的词语。其中A、B、C类大部分是名词;D类多数是数词和量词;E类大多数是形容词;F-J类大部分是动词;K类多数是虚词;L类中是难以被划分到上述类别中的一些词语,大类和中类的排序都是按从具体到抽象的原则[21]。可见《词林》体系中蕴含着词与词之间的语义距离关系,具有相同语义特征的词语才能共现于同一层中,两个词语的语义编码越相似,两个词语的相似性越高,语义距离就越近。因此可以通过对比两个词语每一层的编码来比较两个词语的相似性及语义距离。《词林》的树形结构与决策树的通用形式非常接近,每层编码都可以转化为决策树中的特征,全部特征可以转化为决策树的特征集。
3 N1+N2结构词义相似度计算与语法关
系分析
3.1 词义相似度计算
因为《词林》中所有词语都有语义编码,容易向量化,且词语整体结构设计是从语义相近或相关的角度出发,因此可以通过词语之间的语义距离来计算语义相似度。文献[13]在《词林》的基础上,分析了决定词语相似度的关键因素,提出了使用父结点深度信息计算词语相似度的简洁模型,从计算结果来看,该方法简洁、易用,具有很好的泛化能力和适应性。因此下面以文献[13]中的算法为主要依据来计算N1+N2结构中两个名词间的语义相似度,具体公式如下:
上表中“blp、fzp、dzp、zwp”分别代表“并列、复指、定中、主谓”四种关系。
3.2 词义相似度与语法关系分析
在3.1计算结果的基礎上对每种语法关系的全部相似度结果取平均值,得到不同语法关系中N1与N2相似度均值,结果如下表3所示。
根据该计算结果,可得如下结论:
①并列关系语义相似度均值最高。从语言学角度来看,N1+N2结构并列关系内部的两个名词在语义上是并列关系,二者常常具有某种相似的语义特征,同属于一个语义类别甚至同属于《词林》体系中的某个原子词群。两个名词语法地位平等,从语言功能焦点的角度来看,属于并焦型短语,而且短语内部两个名词一般是同义词或等义词关系,因此N1+N2结构中并列关系的两个名词在语义上具有最大的相似度。
②复指关系语义相似度均值排第二。从语义角度来看,复指关系内部两个名词共指同一人或事物,应该也具有较高的相似度。复指关系的N1+N2结构中,只有当N1是N2的别称时,N1和N2才完全对等,如“唐太宗李世民”,在多数情况下N1和N2的语义是不对等的,这时N2或是表示对N1的称谓,如“宋庆龄女士”;或是表示N1的职务职称,“王力教授”;或是用来说明N1的类属等,如“刘胡兰烈士”。因此从语言学角度分析来看,两个名词的相似度没有并列关系高。但是复指关系短语内部两个名词语义所指相同,语法地位平等,从语言功能焦点的角度来看,也属于并焦型短语,因此两个名词在语义上的相似度均值比另外两种语法关系的短语高。
③定中关系语义相似度均值高于主谓关系。在定中关系中第一个名词对第二个名词起到修饰或限定作用,而主谓关系短语中第二个名词对第一个名词起到陈述或说明作用,从语言功能焦点的角度来看,二者都属于后焦型短语。但从语义关系的角度来看,修饰或限定关系内部,N1与N2常常是属性、特征、处所、范围等关系,这种情况下两个名词间的语义相似程度应该比陈述或说明关系更高,因此定中关系两个名词的相似度比主谓关系的更高。另外从实际语言使用的角度来看,主谓关系的N1+N2短语在数量上远远少于定中关系短语,因此相比之下定中关系两个词的语义相似度比主谓关系大。
④并焦型短语N1与N2的语义相似度均值高于后焦型短语,详见表4所示。
在N1+N2结构四种关系中,并焦型短语包括并列关系和复指关系,将两种关系的相似度均值再取平均值后得到并焦型短语中N1和N2的语义相似度平均值。后焦型短语包括定中关系和主谓关系,计算N1和N2的语义相似度平均值的方法与并焦型短语相同。
从语义角度来看,并焦型短语中两个词语义相同或相近,这种情况下在《词林》体系基础上计算出来的结果是两个词在语义上的相近或相似程度。而后焦型短语中两个词在语义上很多不是同义或近义关系,而是相关关系,因此在《词林》体系基础上计算出来的结果是两个词在语义上的相关程度。
从功能焦点角度来看,并焦型短语中两个名词都是焦点,语法地位平等;而后焦型短语中功能焦点在第二个名词,两个词的语法地位不平等。语法地位平等的两个词之间的相似度应该比语法地位不平等的两个词的相似度大,因此并焦型短语中两个词的相似度应该比后焦型短语大。
4 基于决策树的语法关系判定算法
4.1 构造决策树
决策树是一种十分常用的机器学习方法,是一种有监督的学习方法,常用于解决分类问题。该方法已比较成熟,且使用决策树进行分类的过程较为简单,因此决策树分类的难点主要在于如何构造决策树[8]。特别是在使用决策树方法对N1+N2进行分类时,其主要困难在于如何将判定N1+N2结构语法关系所需要的语言学知识量化为能够为决策树等人工智能算法所使用的数据。
上文所建N1+N2结构语料已为构造决策树做好了准备,该库中的语料标注信息包括词语的词性、《词林》语义编码;短语标注信息包括语法关系、两个名词的语义相似度,这些信息都包含了确定N1+N2结构语法关系的属性。因此本文构造的确定N1+N2结构特征集设为“propertyName”,其中包含7個特征,形式化表示为:
propertyName =
{'similar', '11', '22', '33', '44', '55', '66'}
其中“similar”是N1与N2的词义相似度,“11-55”是《词林》体系第1-5层的语义编码;“66”是第8位语义编码。以“通知+公告”,“皇后+陛下”,“博士+论文”,“抗体+阳性”四组结构为例,其特征集构成如表5所示。
决策树的内部结点是特征或特征的集合,叶结点是所要学习划分的类[8]。本文所构造决策树的内部结点是表5中的全部特征;叶结点是“并列、复指、定中、主谓”四种语法关系。运用决策树算法根据语料库中的标注结果生成判定N1+N2结构语法关系的决策树示例见下图1所示。
经计算,特征“22”的熵最小,信息增益最大,因此以其作为根节点,其中包括所有的训练样本。在“22”特征所对应的子集中,取值为“aa”的子集为第一个分支,继续分析该分支得到特征“similar”的信息增益最大,在该子集中词语相似度取0.1116的子集中仅包含一类样本,即“dzp”,因该节点中所有的样本均为同一类别,所以产生叶节点。递归上述划分子集及产生叶节点的过程,每一个子集都会产生一个决策(子)树,直到所有节点变成叶节点,最终生成决策树。
4.2 构建训练集与测试集
由于N1+N2结构的已有研究中没有见到符合本文标注要求的熟语料库,因此我们对于四种语法关系子库语料按8:2的比例分为训练集和测试集,用测试集的测试结果衡量本文算法的有效性,具体划分数量及占比见表6所示。
本文最终在决策树算法基础上判定测试集中N1+N2结构语法关系的计算结果,语料计算的正确和错误结果见下表7所示。
运用本文设计算法最终在测试集中得到的测试结果正确率达到89.39%。因为目前运用机器学习算法判定短语结构关系的研究鲜少见到,无法与解决该类问题的相关算法与进行对比。因此我们将决策树算法解决其它问题的结论和运用其他算法解决类似语言学问题的结论进行了对比。例如文献[5]在运用决策树算法解决实际应用问题时,其对比的算法在不同数据集上的计算准确率介于61.4%到89.7%之间。刘志杰等[19]研究了“N1+N2”的识别问题,其最高正确率为88. 50%。因此本文研究结果已经达到了同类算法或同类问题处理中的较高水平,具有一定的应用价值。
5 结 论
结合语料库和词语相似度计算方法,从大规模语料中发现并验证了N1+N2结构中的语言学规律。①从语法关系角度来看,四种关系内部两个名词间的语义相似度从大到小的顺序是:并列>复指>定中>主谓;②从语言功能焦点的角度比较语义相似度,结果是并焦型>后焦型。由此也可以看出在一种语言中,词与词之间的语义关系与语法关系是密切相关的,可以利用词与词之间的语义相似度去判定其语法关系。这个结论不仅在N1+N2短语结构中存在,在其他两词或多词短语结构中可能也存在相似的结论。
短语是词和句子之间的层级单位,短语在词与词组合的基础上产生,又可以进一步扩展为句子,在自然语言处理过程中,应该按照语言单位本身的构成规律,首先进行词层级的信息标注,在此基础上再进一步确定词与词之间的短语关系,然后再进行句子层级的语法和语义分析。
在大规模语料库的基础上使用人工智能的方法研究语言学规律和处理语言学问题将是未来的发展趋势。而将语言学知识表示为能够为人工智能算法所使用的量化特征集是其中的关键问题。本文对此方法做出的尝试和得出的结论对提升自然语言处理的理论和应用水平具有重要作用。
参考文献
[1] 李素建.汉语组块计算的若干研究[D].北京:中国科学院研究生院(计算技术研究所),2002.
[2] 杨泉,冯志伟.“n+n”歧义消解的博弈论模型研究[J].语言科学,2015,14(3):250-257.
[3] 杨泉,冯志伟.机用现代汉语“n+n”结构歧义研究[J].语言研究,2005(4):105-111.
[4] 王振华,孔祥龙,陆汝占,等.结合决策树方法的中文姓名识别[J].中文信息学报,2004(6):10-15.
[5] 陆旭,陈毅红,熊章瑞,等.一种面向大数据分析的快速并行决策树算法[J].云南大学学报(自然科学版),2020,42(2):244-251.
[6] 贾涛,韩萌,王少峰,等.数据流决策树分类方法综述[J].南京师大学报(自然科学版),2019,42(4):49-60.
[7] 周志华. 机器学习 [M]. 北京:清华大学出版社, 2016.
[8] 时念云,褚希,张金明.基于语义的决策树挖掘方法研究[J].微计算机应用,2007(12):1288-1291.
[9] JUAN J L, JOSU G, MOHAMED A H T, et al. A reproducible survey on word embeddings and ontology-based methods for word similarity: Linear combinations outperform the state of the art[J]. Engineering Applications of Artificial Intelligence,2019(85):645-665.
[10]刘群,李素建.基于《知网》的词汇语义相似度计算[J].Computational Linguistics and Chinese Language Processing,2002,7(8):59-76.
[11]田久乐,赵蔚.基于同义词词林的词语相似度计算方法[J].吉林大学学报(信息科学版),2010,28(6):602-608.
[12]陳宏朝,李飞,朱新华,等.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88.
[13]杨泉,孙玉泉.基于《同义词词林》深度的词义相似度计算研究[J].计算机工程与应用,2020,56(17):48-54.
[14]李小涛,游树娟,陈维.一种基于词义向量模型的词语语义相似度算法[J].自动化学报,2020,46(8): 1654-1669.
[15]程婧,刘娜娜,闵可锐,等.一种低频词词向量优化方法及在短文本分类中的应用[J].计算机科学,2020(4):1-11.
[16]GUO Shao-ru,GUAN Yong,LI Ru,et al. Chinese word similarity computing based on combination strategy[C]. International Conference on Computer Processing of Oriental Languages National CCF Conference on Natural Language Processing and Chinese Computing. Springer International Publishing, 2016:744-752.
[17]冯志伟.自然语言的计算机处理[M].上海:上海外语教育出版社,1996.
[18]王宗华.面向计算机的N1+N2句法关系及语义关系研究[D].武汉:华中师范大学,2006.
[19]刘志杰,吕学强,程涛.搜索引擎日志中“N1+N2”型名词短语研究[J].现代图书情报技术,2010(12):58-63.
[20]倪廓阔,吕学强,韩艳铧,等.搜索引擎中“N1+N2”型短语查询优化研究[J].计算机应用与软件,2012,29(9):117-121.
[21]梅家驹,竺一鸣,高蕴琦,等.同义词词林[M].上海:上海辞书出版社,1983.