基于启发式规则的藏语重叠词抽取方法研究

2020-10-12才让卓玛

科学与信息化 2020年20期

摘要文章利用网络爬虫方法对网络资源进行了归纳整合，建立了自用微型语料库。依据藏语字形特点搜集和归纳了重叠词规则，最后通过规则抽取，实现并完成藏语重叠词的抽取。抽取效果良好，具有较好的通用性。

关键词语料库;规则;藏语;重叠词;抽取

引言

藏语重叠词作为藏语特殊的一类词，在句子中承担着重要的语法作用和语法手段。词的抽取是自然语言处理中的知识抽取的一种应用，如今被广泛运用于学术、医药学等领域。藏语文本语料的构建是藏文信息领域的一大基础性研究，语料的匮乏成了发展瓶颈。鉴于这样的背景下，本文提出了构建文本语料，规则抽取词的方法。经总结，抽取方法主要可以分为基于统计的方法[1]，基于规则的方法和基于统计和规则相结合的方法，通常在实际应用中可根据面向数据源的不同选取不同的方法。

1语料库预处理

传统的语料库的语料大多来自书本、试卷等纸质文本扫描或打字，其效率较低，人工耗费巨大，随着互联网的发展，网络上海量的文本，为语料库建设提供了大量的文本资源，因此，基于网络文本的语料库应运而生。重叠词的抽取是在一定规模的语料库的基础上实现，构建语料库时除了已有语料外，网页正文的抽取也是首要选择。在对藏文网页进行大规模的网络爬虫后，为减少语料噪音和改善文本质量还对对藏语文本数据集进行预处理，初步达到预期效果。

（1）编码转换：将所有文本都转换成UTF-16编码格式，以统一不同编码形式的藏文文本。

（2）分词：藏语是拼音文字，属于屈折型语言，词是最小能够独立运用的语言单位，词与词之间用音节符“”为自然分割符，短语之间用垂符进行分隔。因此，根据音节符、垂符就可以解决分词问题。本文采用西北民族大学信息院祁坤钰教授开发的藏文分词系统用来分词，此软件具有歧义识别、未登录词识别、词性标注等独特的特点，对语义分析和文本分类等有非常大的帮助。

（3）“躁音”过滤：对语料中出现的所有非藏语文字、数学符号、数字、标点符号和空格进行过滤。

2规则构建的方法

对于藏语的重叠词而言，首先根据词的特征需要构建出词的属性的描述规则，再通过构建的规则对藏语重叠词进行抽取。而重叠词作为藏语普遍的语法手段，名词、动词、数词、代词、形容词等都是能够重叠，其数量浩繁、形式繁多、结构复杂，所以对其规则的构建是非常重要同时也是较为困难的。因此，抽取规则的设计是最关键的环节之一，不同程度上影响着抽取效果。通常来说，抽取规则构建主要分为基于统计和基于规则两种方法[2]。文章采用人工构建抽取规则的方法，此方法是一种通过对规则进行理解，了解规则本身的含义和涵盖的范围，再通过搜集和归纳重叠词的结构特征总结规则，并根据规则对重叠词的抽取实验

2.1 藏语重叠词的抽取规则

构建规则是通过大量阅读相关文献及领域内的研究基础上，统计和归纳重叠词的形态特征后提出的规则构建思想。规则构建过程共分为5个步骤：

（1）阅读大量文献。文献的阅读可分为两步进行，首先，梳理领域内文献，对其进行一一精读，搜集和归纳藏语重叠词的结构形式的统计;其次，词典的归纳法。

（2）搜集藏语重叠词。在查阅文献过程中，对藏语重疊词进行归类统计，从形式上将藏语重叠词分为单音节重叠、双音节重叠和多音节重叠，根据特征再搜集，再分类。

（3）寻找藏语重叠词的规则。

（4）统计规则。在初步形成的规则上根据不足和缺点进行进一步完善和补充，最终形成规则。

（5）完善规则。

通过大规模归纳总结，藏语重叠词的抽取规则可以分为七种。规则抽取有一特点是字形结构，藏语恰好是形态比较开放丰富的文字，在搜集分析抽取规则时，依照词的构词特点和词性变化可以确定属于哪个类型，适用哪个规则方法，以最终达到准确抽取。就如第二种规则来讲，是构词方式上可以入手分析，这类词一般是三音节，第一个字是单音节多以动词，而后两个字是多音节，是相同的两个字，一般为拟声拟态词（如vod lam lam，ldi ri ri等）。在抽取时设y为总符号，那么设第一音节为y1，设后两个音节为y2，抽取规则是y（y1=y2），在重叠词抽取时按照这个规则撰写程序抽取，符合规则条件则抽取，否则则放弃，其他规则也依次类推

3实验数据与结果

文章共对五十余个藏文网页和上万条URL做了网络爬虫，初步构建了文本语料库，再依靠语料进行规则抽取后，共抽取到了3211条藏语重叠词，抽取率达92%，抽取效果良好，具有较高的通用性。

4结束语

本文是一种基于规则的抽取方法，该方法对藏语网络资源进行了文本整合，然后从建好的语料库中利用程序实现了重叠词的抽取。实验结果取得了良好的效果，基本满足了快速准确收集特征词的要求，摆脱了烦琐的传统方式，为文本信息抽取提供了新的思路和方法。

参考文献

[1] 孙杰，关毅.基于统计的网页正文信息抽取方法的研究[J].中文信息报，20（0）：17-22.

[2] 黄绍杉.基于统计与规则的专利摘要信息抽取[D].北京：中国科学技术信息研究所，2045.

作者简介

才让卓玛（1994-），族，甘肃碌曲人;毕业院校：西北民族大学中国民族信息技术研究，学历：硕士研究院。现就职单位：西北民族大学中国民族语言文字信息技术教育部重点实，研究方向：藏文信息处理技术。