基于改进AHP 和模糊理论的小型语料库评测研究

2023-11-20贺娜娜朱红磊

科学技术创新 2023年25期

贺娜娜，朱红磊，李苹

（河南中医药大学，河南郑州）

在20 世纪50 年代后期，作为一种新兴的学科和新的研究方法，语料库语言学逐渐发展起来，将计算机快速大量准确检索和统计语料的功能与语言学的各项研究相结合[1]。随着计算机存储数据设备的成本下降，研究者针对研究所需开始建立多种小型语料库[2]。但是，到目前为止，语料库建库的标准及规范尚未得到统一，导致不同语料库的设计和构建出现很大差异。因此，建立合理的评测指标体系并选取有效的方法来评测小型语料库的可用性是目前亟需解决的问题。

1 基本理论

1.1 改进AHP

AHP[3-5]法由美国匹兹堡大学教授Saaty 提出，是一种多属性层次权重决策分析方法，主要通过运用网络系统理论和多目标综合评价对定性问题进行定量分析。目前，针对AHP 法的研究，主要从以下7 个方面展开[6]：

（1）一致性的检验与改进；（2）标度选择；（3）不确定性问题；（4）排序方法；（5）判断矩阵的灵敏度分析；（6）与其它决策方法的结合；（7）群组决策的研究。

AHP 要求比较某两个指标之间的重要性，建立两两比较判断矩阵，然而传统的九标度存在2 个问题[7]：

（1）“重要性”的概念较为模糊，特别是在1 至9中给出相对重要性的定量判断是很困难的；（2）在评价指标较多的情况下，一致性（consistency index，CI）很难保证，如果存在严重不一致时，需要重新构建判断矩阵。针对上述问题，有关学者[8]提出了0，1，2 三标度法,其有利于制表以及收集专家信息，易被决策者接受；在评价制表较多时，能有效提高一致性，且评价结果也比较接近复杂判断的结果。基于此，我们运用这种标度来代替传统的九标度判别。假设有指标xi与xj，hij为两个指标重要性比较的取值，那么三标度判别指标重要性如表1 所示。

表1 三标度判别指标重要性比较

本文中小型语料库评测指标权重的计算步骤如下：

步骤1，原始判断矩阵的构建

将各元素相对准则层K 的重要性进行比较。根据表1 的方法，进行两两比较，最后获得判断矩阵A。

步骤2，处理判断矩阵

对A 的相对重要性权值ri进行比较，

式（2）中：ri是A 的第i 行向量各分量的和。基于此，采用差值法处理A，假设进行处理后，矩阵为A'，包含的元素为aij'，

式（3）中：rj是矩阵A 的第j 行向量的各分量的和。

步骤3，小型语料库指标的层次单排序和权重计算

针对小型语料库可用性，指标层中的元素的意思是影响指标，上面一层是准则层，影响指标对应准则层权重的计算是层次单排序，我们运用方根法来计算：在加工过的A'中，每行元素进行相乘，然后开n 次方，同时进行归一化得到权重Wi，

步骤4，检验评价指标一致性

层次单排序情况下，为确保小型语料库指标的辨别在整体上具有传递性和合理性，需检验判断矩阵的一致性。假设一致性指标是CI，

当CR<1 时，那么判断矩阵的一致性可以接受。式（7），RI 是和矩阵阶数有关的随机一致性的指标，Saaty得出了RI 的值，见表2。

表2 RI 取值

1.2 模糊综合评价模型

模糊综合评价法[9]，即应用评价因素模糊关系合成机理，依据各个评价因素对被评价对象的隶属度进行综合性评判的一种方法。构建单因素Bi的评判矩阵r 和单因素权重集A，用Bi的评判矩阵乘以A，可以获得Bi的评判集；评判集归一化后，将其视为上一级指标的R 的行，从而构建上一级指标的R；依据构造单因素评判方法构建每一级的评判集，从而得出整体评价结果。

2 实例分析

2.1 小型语料库评测的指标体系设计

小型语料库评测的基础是评测指标体系的构建，指标体系的构建要遵循科学性原则、可行性原则、全面性原则及系统和层次原则，具体含义见表3。

表3 小型语料库评测指标体系构建原则

小型语料库的构建，过程繁杂，影响其可用性的因素有许多，因此，搜集整理与可用性有关的信息是最关键的一步。对语料库的可用性进行评测，我们要考虑多个方面。首先，语料库设计。语料库质量的好坏与语料库设计有直接联系，其设计必须按照建库目的和用户需求来进行。其次，语料库实现。在研究语料库实现方面，关键因素主要有：语料采集程序、存储结构、管理程序、检索程序等。再次，语料库标注。语料的加工规范、程序、结果是探究语料库标注的关键因素。最后，语料库维护。可维护性和维护程序可作为研究语料库维护的两个方面。

2.2 评价对象因素的确定

根据表4 中建立的小型语料库可用性评测指标体系，可维护性的评测指标有5 种，分别为平衡比例、语料更新、逻辑结构、存储结构和重新标注，则该小型语料库的可用性因素集为 U={u,u,u,u,u}，将各指标分为5 个等级，于是得出可维护性的各影响因素等级（见表4），各因素等级的隶属度（见表5）。

表4 小型语料库可维护性各影响因素等级

表5 各因素等级的隶属度

在一致性原则的基础上，采用归一化，得到因素等级隶属度矩阵R 为：

2.3 确定评语集

建立小型语料库评测的评语集。根据小型语料库指标体系的特征，在前人制订评语集的经验基础上，定义评语集为V=（很小，较小，中等，较大，很大）=（Ⅰ，Ⅱ，Ⅲ，Ⅳ，Ⅴ）。

2.4 指标权重的确定

2.4.1 Delphi 调查

采用Delphi 法征集15 名专家的意见，以三标度为准，将表4 中的准则层的5 个方面（平衡比例、语料更新、逻辑结构、存储结构和重新标注）重要程度进行相互比较、对各指标的重要程度进行相互比较。

设二级指标可维护性的5 个三级两两比较后得到的判断矩阵为：

由式（5）、式（6）及式（7），结合表4，经计算上述判断矩阵的最大特征根λmax=7.6684，一致性指标CI=0.1114。从一致性检测判别式可得CR=0.083<0.1，即：该两两因素的判断表可通过一致性检验，上面的计算有效。

2.4.2 二级指标可维护性下的5 个三级指标的指标权重

依据前面给出的算法的步骤，处理和计算判断矩阵C12的权重：

由式（4）可知，三级指标中对于大规模语料库可用性评测的影响权重分别是0.103、0.214、0.312、0.228 和0.143，向量形式为WB12=[0.103 0.214 0.312 0.228 0.143]T，这说明逻辑结构对于大规模语料评测的影响最大，其次是存储结构和语料更新，最后是重新标注和平衡比例。

据此，对三级指标相对的目标层的影响权重进行计算，可得到如下的向量：