电力专业语料库增量构建与离线应用方法
2019-03-29张新阳李辉
张新阳 李辉
摘要:专业小型语料库具有目标明确、语料收集针对性强、语料可更新、标注灵活等特点,在各个专业领域的应用日益增多。为了满足电力行业单位在办公、管理、决策等文本处理过程中的需求,建设一个电力语料库,提供各种语料检索及应用具有现实意义。给出了基于Web采集技术的语料收集、语料处理和语料代表性度量、语料增量更新及子语料库抽取并离线应用的设计实现过程。利用云南电网的文本语料进行试验,采用三种方法对语料的代表性进行度量,利用距词频中心的距离指标对度量结果进行评价,使用词语覆盖度、加权词语覆盖度、词语重现度等度量方式来表达通过抽取语料形成的子语料库与原始语料库的差异。试验表明,电力专业语料库具有特征较为集中的长尾特征,即80%的语料特征可由20%的语料表达,使用按需求抽取子语料库离线应用具有很好的实际效果。
关键词:电力语料库;距离指标度量;词频统计;离线应用
1 引言
利用计算机来搜集、整理和加工语料并形成语料库是研究语言文字的常用方法[1]。目前,国内外研究团队构建了大量通用语料库,如Brown、Semcor、LOB、ICE等英文语料库以及国家语委现代汉语语料库、北大语料库、台北“中研院”语料库等中文语料库[2]。另有领域专用语料库如学习者、FAO农业英语语料库、中介话语语料库、学术语篇语料库、法律语料库[3]等应用于特定行业。语料库的建设大多采用基于通用词典标注的方式进行,分为语料收集和预处理、标注规范的制定、质量监控等过程[4]。收集的语料大多来源于组织发布的文献或Web文本,其中来源于文献的语料较为正式但信息录入需耗费大量人力,来源于网络的语料采集成本低,目前被广泛使用[5-7],但语料的代表性和准确性与网站质量有较大关系。
语料库处理与应用的核心问题是从大量的语料中取得文本特征并表示及应用。若将语料视为文本特征空间的样本,则语料库是一个样本集,其在特征空间的分布状态即为语料库的重要特征。目前文本分类的研究目的即是希望通过建立单层或多层次的分类来表达文本集合的分布特征[8-15]。语料库的分析、度量、约简等操作均与文本分类及文特征提取与表达有重要联系。
行业语料库通常只针对一个专业领域。主要应用于行业知识库建设、问答系统开发及机器学习系统训练等。目前,行业语料库建设与应用的难点问题包括语料库规模的确定,语料库的更新及其复制应用。语料库规模过大会降低其应用的效率,同时耗费处理、存储、网络等资源,而规模过小,则无法有效地表达行业文本的主要特性。语料库的离线应用,即通过子集化操作取出语料库中的一部分内容进行使用,如何提取复制的这部分内容能够最大可能地代表完整语料库的特征也是应用的难点问题。本文面向电力行业,围绕电力用户应用需求,利用Web进行语料收集,采用基于词典的方式对预处理后的生语料进行标注,利用相似度计算模型对语料代表性进行排序,通过增量方式对电力语料库进行更新,从而建立电力行业专用语料库,贴合专业领域用户在办公、管理、监督、协调、决策等工作过程中对于文本搜索、文本处理等任务的需要,为专业用户进行文本分析、处理等任务开展奠定基础。
2基于Web的电力专业语料库增量构建方法
2.1基于Web采集的语料获取及预处理
基于Web的语料采集是通过网络获取、分析、提取Web网页内容,并进行处理以形成特定形式的文本语料既而建立语料库的过程。Web语料采集过程通常以事先指定的种子URL列表开始。当采集工具访问这些网址时,它会识别网页中的所有超链接,并将其添加到要访问的网址列表中,称为抓取边界。根据一组策略来递归地访问边界URL。如果采集程序获取到页面,它会复制并保存信息。页面内容通常被格式识别、编码转换并统一进行保存。
2.2 语料库的构建与应用
语料库的构建包括以下步骤:语料库的设计、语料的输入与存储、语料库的索引与处理、语料库的应用接口。其中语料库的设计包括确定语料库的规模、文本采样的方案、文本分类/分层取样的方法确定等。语料的输入与存储是把语料输入文本库的步骤,其间的主要工作包括通常包括格式识别、编码转换、基础结构的分割等等;语料的存储则是由用户选定特定的形式来存储管理已收集的语料,通常采用文件或者数据库的方法,其中采用文件的方法进行管理具有结构简单、易于实现、资源要求低等特点,而数据库管理方法则具有管理严密、查询与操作功能丰富、数据安全等特点。语料索引与处理包括词语自动切分和词性自动标注、未登录词的自动识别,有效地识别并处理各种数字串、中西人名、中西地名、机构名、后缀短语等,并为它们建立索引,以便于对语料库的进一步应用操作。语料库的应用包括自动语音识别、语言知识库建立、信息抽取、信息检索、文本分类和过滤、机器翻译等方面,不同的应用往往依赖于语料库建立时所包括的语料附属信息。
2.3 语料代表性度量与特征表达
语料在整个文本特征空间的分布通常是不均匀的,换言之,给定一个密度度量,语料的分布是稀疏的。这种不均匀性与稀疏性是语料库的约简与特征选择的前提,即可以通过提取一部分语料构成子语料库来尽可能保持原有语料库的特征。这一抽取过程是语料库离线应用的首要操作步骤。
为了确定子集化语料库时对于语料的选择顺序,需要事先建立起针对语料的度量方法。本文通过度量单条语料与整个语料集相似性程度来判断用该条语料表达语料集的强度,即代表性度量。采用代表性度量值对语料进行排序。首先,对分词后的语料库进行词频统计,获取语料库的整体信息;其次,分别对每篇文本内容进行词频统计,获取单篇文本内容的整体信息,均按照“词——词数”的方式进行整理,如表1、表2所示。
其中, 表示子语料库中词语的权重,即子语料库中语料形成的集合 中各詞的权重, 表示原语料库中词语的权重,即原语料库中语料形成的集合 中词语的权重。
在上述度量中, 和 可理解为子语料库相对于原始语料库应用效果的指标, 可理解为子语料库规模的指标。一般而言,对于所有的语料,若给定一个全序关系,则依据此序对于语料库进行子集化,则可以实现一个 、 、 单调递增的过程。此过程中如果 的增长速度慢于 与 的增长速度,则说明在语料库的子集化操作中能够用较少的数据来达到较好的效果。通过比较上述三个度量值在子语料库规模不断增大直到等于原语料库的过程中的增长速度,可以评价该种子集化操作的优劣水平。
2.4 语料库增量更新
语料库内容并非一成不变,当有新的文本内容添加至语料库时,需对语料库进行增量更新。语料库增量更新亦采取代表性度量的方式进行。首先对新增语料采取分词、词性标注和去停用词等过程,获得新增的熟语料。然后对熟语料进行词频统计,对语料库重新进行词频统计。最后根据公式(1)或(2)或(3)对语料重要性进行打分并对语料进行重新排序,获得增量更新后的语料序列。方法1、2、3的计算效果在试验部分论证。当语料库的更新速度很快,每次都重新进行词频统计和所有语料库代表性度量计算较影响更新效率时,可以采取惰性更新的策略,即设定一个阈值,当更新数量少于此阈值时,只将新语料进行必要的处理以入库,并不进行语料库中已有语料代表性度量的更新计算。当更新数据积累到一定程度时,可以进行一次集中的更新操作,以重新计算各语料的代表性度量取值。惰性更新可以有效地摊平单次更新的资源耗费,提高更新性能。
3 方法流程
3.1方法描述
1、数据采集。本文数据来源于互联网,利用爬虫工具进行数据采集过程,获取云南电网官方网站新闻语料1000篇。
2、数据清洗、数据转换。直接爬取的数据存在冗余数据和编码错误等问题,需先进行数据清洗和数据转换操作。
3、语料分词和词性标注。由于本文构建的语料库为电力行业专业语料库,本文在基础词表的基础上添加由电力常用词汇、电工电气、变压器、电力设备企业名录组成的专业词表,对经过清洗、转换后的生语料進行分词和词性标注操作,获得电力行业专业语料库。
4、词频统计。对电力行业专业语料库进行词频统计。对单篇文本语料进行词频统计,得到每篇语料的词频统计结果。
5、语料代表性度量。基于电力行业专业语料库和单篇文本语料词频统计结果按照公式(1)、(2)、(3)进行语料代表性度量值的计算。
6、语料代表性排序。将语料按代表性打分进行排序。
7、判断是否存在新增语料。若存在新增语料,重复上述过程;若不存在新增语料,则语料库构建过程结束,用户可根据自身需求截取前Top 个语料。
8、根据公式(1)、(2)、(3)所计算生成的语料代表性度量的降序序列,生成词语覆盖度 、词语重现度 、加权词语覆盖度 的度量值序列,作为离线应用评价子语料库应用效果的量化指标。
3.2方法流程图
4 试验
4.1试验数据
本文爬取云南电网官方网站1000条新闻语料,根据上述方法流程进行试验,采用人工校验的方式对结果进行检验。
4.2 结果分析
从图中可以看出尽管按三种方法计算的度量值分布曲线并不重合,但这三种度量值的分布情况较为相似,即度量值较高的语料占比不大,占语料库多数比例的语料代表性度量值差异较小。这一特征暗示较少的部分语料即可以有效代表原始语料库的词语特性,而大多数语料代表原始语料库的程度并不高。从上述图中可以看出,三种方法分值曲线都是在开始位置下降最快,从第200篇语料减慢。方法1与方法3语料分值下降较快,然后减慢。上图表明三种方法均可以用于语料库截取,构建小型有代表性的语料库。
对三种方法得到的排名前100的语料进行重复性检验,方法1与方法2排名前100的语料相同个数为81。方法2与方法3排名前100的语料相同个数为82,三种方法总体上有较好的一致性。
基于前述三种方法所计算出的语料排序,分别构造出规模递增的子语料库系列,对此子语料库系列计算出词语覆盖度、词语重现度、加权词语覆盖度的实验图表如下所示:
与词语覆盖度(WCR)曲线
图5和图6均显示了按照一个特定的方法对语料进行排序,然后基于这一排序以自然数列选取语料形成子语料库,并计算这些子语料库的规模与子语料库的词语覆盖度WCR、加权词语覆盖度WWCR、词语重现度WRR的关系。
图5和图6中使用了前述三种排序方法。同时还按照贪婪算法的思想,实现了一个逐步最优WCR度量的语料排序方法,即对于原始语料库 和子语料库 ,其中 ,对于 ,每一个选取并加入子语料库的语料满足的 。
图5显示了当按照一个特定的语料排列的顺序来选择语料生成子语料库以利于离线应用时,该子语料库的词语覆盖度WCR与加权词语覆盖度WWCR的变化情况,其中四种排序方法所导致的WCR与WWCR递增曲线的形状差别并不明显,特别是WWCR曲线几乎重合。同时相比于WCR曲线,WWCR曲线的上升速度更快。这一图形很直观地表明只需要大约10%的语料,子语料库即能包括原始语料库中90%以上的权重词;即使不考虑权重,只用原始语料库30%规模的子语料库也能覆盖80%的词语,这一数据充分表明,使用子语料库进行离线应用可以很好地代表原始语料库的相关特征。
图6显示了WRR曲线与WCR曲线,其中WRR曲线的上升速度低于WCR与WWCR曲线,进一步说明少量的词语即可代表整体的原始语料库的很多特征。图6中WRR与WCR曲线之间的距离代表着语料应用的边际效用增加值,当两者距离最大时,表明增加单位语料所增加的应用效果最多。
上述实验数据分析表明,从语料库中选取10%的文本语料,即选择100篇文档,即可实现覆盖全部语料库中大约80%的词语,这一特征表明抽取少量词语来形成一个子语料库,即可实现在某些基本度量上,子语料库与原始语料库的应用效果差异不大。这一特点为语料库的抽取及其离线应用提供了数据支撑。
5 结束语
本文聚焦于通过Web访问作为语料采集的输入方法,以文本数据库的形式来管理语料库,对语料进行清洗、转换、分词等过程,形成电力行业专用语料,并实现语料的增量更新。采用三种语料截取方法将语料库子集化,选取最能代表语料库整体的前Top k个关键语料。利用WCR、WWCR、WRR指标对三种方法试验结果进行评价,结果表明上述方法均有较好的性能与适用性。