APP下载

汉藏双语旅游领域知识图谱系统构建

2019-11-18冯小兰赵小兵

中文信息学报 2019年11期
关键词:汉藏维基百科汉文

冯小兰,赵小兵

(中央民族大学 信息工程学院,北京 100081)

0 引言

旅游业是当前发展最为迅猛的产业之一。以藏族地区为例,旅游景点丰富,包括寺庙、湖泊、山峰、宗教派别等。2017年,西藏旅游收入379.4亿元,占GDP的28.95%,旅游业已成为西藏地区重要的经济来源。然而目前互联网上缺乏藏文旅游信息智能化服务系统,且藏文景点介绍文本也十分匮乏。相反,汉文旅游网站信息量大,但包含的景点不尽相同,景点介绍文本篇幅较长,且各个旅游网站对同一个景点描述侧重点不同。如何借助资源丰富的源语言(汉文)来帮助低资源语言(藏文)构建旅游信息知识智能化服务是当前亟待解决的问题之一。

因此,为了便于不同语言使用者可以方便快速、准确全面地从海量的非结构化文本信息中获取与景点相关的属性知识,例如,地理位置、创建时间、相关人物等。本文首先通过关系抽取技术从资源丰富的汉文文本中自动抽取与景点相关的属性知识,然后构建高质量的汉藏旅游领域词典,将获取的汉文景点知识翻译为藏文,以此构建藏文旅游知识库,最终构建汉藏旅游领域知识图谱系统。

构建汉藏旅游领域知识图谱系统对于旅游领域信息检索、问答系统等自然语言处理工作有重要的研究意义,在促进藏文旅游信息的智能化管理与服务等方面具有潜在的应用价值;同时,对促进藏族地区旅游资源的开发利用和推动旅游经济发展具有重要作用。

1 相关研究

人们在对通用领域进行关系抽取的同时也逐渐开始关注行业或领域知识并进行领域关系抽取研究,领域关系抽取需要根据领域文本自身特点进行研究。目前,领域关系抽取方法主要有基于模式匹配的方法、基于机器学习的方法和基于深度学习的方法。

基于模式匹配的方法是常用的领域关系抽取方法,它需要依靠语言学家根据领域自身特点编制关系模板,穷举各种表达形式,根据关系模式去匹配文本并进行关系抽取。张练[1]采用了模式匹配的方法对军事领域的人物职位关系进行了关系抽取。该方法的缺点是成本高,当领域不同时需要重新编写关系模式,在实际应用中实现比较困难。

基于机器学习的方法实质是将关系抽取看作一个分类问题。刘龙[2]采用卷积树树核和混合核对音乐领域进行关系抽取。Kong等[3]采用了基于Bootstrapping的方法对经济领域进行关系抽取。周蓝珺[4]采用基于最大熵和SVM的方法对音乐领域关系进行抽取。基于机器学习的方法都需要依赖人工选择特征,特征选择的好坏会直接影响最终的抽取效果。

基于深度学习的方法可以通过神经网络自动学习并提取特征。Zeng[5]和司文豪[6]等都采用CNN进行了关系抽取,但CNN不适合学习长距离的语义信息。因此Zhang等[7]采用了RNN神经网络进行关系分类,然而RNN存在梯度弥散问题。于是Hochreiter等在1997年提出了LSTM[8],它可以记录距离较远的历史信息,很好地解决了RNN的梯度弥散问题。

本文在分析了关系抽取方法的基础上,对汉文旅游领域进行关系抽取并构建汉藏双语旅游知识图谱系统。由于目前汉藏机器翻译系统对汉文的翻译,尤其是旅游领域的词语,其翻译效果还未能达到实际应用水平。因此,本文采用了维基百科等方法来获取旅游领域准确的汉藏词典,并将获取的汉文景点知识通过旅游领域汉藏词典翻译为藏文,从而构建藏文旅游知识库。本文主要分为以下四部分:

(1) 语料库构建。汉文旅游领域关系抽取语料主要是从途牛旅游网、中国西藏旅游网、中国旅游网、景点兔等国内各大旅游网站,利用Xpath技术共爬取3 021篇旅游文本,且旅游景点主要涉及藏族地区(西藏、青海、甘肃、云南迪庆等)。

(2) 汉文旅游知识获取。该阶段主要以汉文旅游领域关系抽取为主,采用BLSTM神经网络模型在已构建的汉文语料库上进行关系抽取,获取与景点相关的8种属性关系(位置、创建时间、建立人、临近景点、包含景点、别名、等级、相关人物)作为景点的属性知识。

(3) 旅游领域汉藏词典构建。该阶段采用基于维基百科等方法构建高质量的汉藏旅游领域词典,以此将获取的汉文旅游知识翻译为藏文,从而获取藏文旅游知识。

(4) 系统构建。该阶段主要采用JavaScript、D3.js、MVC框架等网站开发技术将获取的汉藏双语旅游知识以数据库形式存储,并以文字、图片、力导向图等形式可视化展示,构建汉藏旅游领域知识图谱系统,其整体设计框架如图1所示。

图1 汉藏旅游知识图谱构建整体框架

2 旅游知识获取

旅游知识获取主要从汉文旅游文本中通过旅游领域关系抽取获取景点属性知识关系,然后通过构建汉藏旅游词典将汉文旅游知识翻译为藏文,以此获取藏文景点知识属性。本节主要内容包含旅游领域关系抽取和旅游领域汉藏词典构建。

2.1 旅游领域关系抽取

本文将旅游领域实体关系定义为三元组形式,其中e1表示实体1,e2表示实体2,r表示e1和e2的关系类型。为了更全面地挖掘出景点的属性知识关系,本文主要关注5类实体,分别为景点、地点、人物、所属类别、时间,基于5类实体定义了9种关系类型(分别为位置关系、创建关系、建立关系、海拔关系、所属关系、包含关系、等价关系、临近关系、相关关系)并在文本句内进行实体关系抽取。

2.1.1 词表示模型

本文训练词向量和词性向量,从各大旅游网站爬取旅游领域文本,共计3 021篇。将爬取的旅游文本统一编码并去除文本无用字段,仅保留文本正文字段,并进行分词、词性标注等处理,最终得到训练词向量的文本语料库(CorpusData)。分词及词性标注采用了中科院的ICTCLAS系统。因旅游文本中含有大量的景点名词和地点名词等信息,利用传统的分词无法正确切分,因此构建了大量的用户词典,并进行了词性修正等处理。图2展示了融合词性信息的词表示训练过程。将标有词性的文本语料库(CorpusData)作为输入,利用基于Word2Vec[9]模型进行联合训练,最终得到词向量模型(Ci_VecModel)以及词性向量模型(Xi_VecModel)。

图2 融合词性信息的词表示模型

2.1.2 BLSTM关系抽取模型

为了解决RNN梯度弥散问题,1997年Hochreiter等提出LSTM[8],随后有很多LSTM的变体被提出[10-11],Greff等人[12]比较总结过LSTM的变种,并比较了其效果,结果显示这些变种表现差异不大。

LSTM通过“门”来控制丢弃或者增加信息,从而实现遗忘或记忆的功能。一个LSTM单元有三个这样的门: 一个是输入门it和它对应的权重矩阵Wxi,Whi,Wci,bi;一个是遗忘门ft及它对应的权重矩阵Wxf,Whf,Wcf,bf;一个是输出门ot及其对应的权重矩阵Wxo,Who,Wco,bo,这三个门利用当前输入xi,前一步产生的状态hi-1,以及当前的细胞状态ci-1来产生数据,以此决定是否保存输入,忘记之前保存的状态。相关公式如式(1)~(6)所示。

融合词性信息的BLSTM神经网络模型如图3所示。

(1) 输入。输入经过预处理的文本。给定一长度为L的文本句子C,其中C={(c1,x1),(c2,x2),…(cL,xL)},ci为句子分词后的第i个词语,xi是词语对应的词性,L是句子分词后的词语数目。

(2) 词表示层。该层包含利用词向量模型(Ci_VecModel)以及词性向量模型(Xi_VecModel)训练得到的词向量W={w1,w2,…,wL}和词性向量P={p1,p2,…,pL}。最终将W和P进行矩阵相加,得到融合词性向量的词表示Vec={e1,e2,…,eL},即Vec=αW+(1-α)P,(其中0≤α≤1)。当α=1时,Vec=W,即未融合词性信息的词向量;本文融合词性向量时令α=0.5,同等程度关注文本词语及其词性特征。

(3) BLSTM层。采用了双向LSTM[13],可以同时获得句子从前到后以及从后到前两个方向的文本语义信息。其中第i个词的输出计算公式如式(7)所示。

图3 关系抽取BLSTM神经网络模型

(7)

(4) 全连接+softmax分类器。BLSTM层的输出以全连接的方式,与softmax 分类器相连,输出标签的概率分布。

2.2 基于维基百科汉藏旅游领域词典构建

维基百科是一个免费的在线百科全书,具有覆盖面广、动态更新、准确率高、结构化强等特点,这些特点使得维基百科被认为是一个非常有效的知识抽取的语义数据源[14]。

图4 维基百科汉藏翻译实例

基于维基百科经纬度属性获取流程如图5所示。

图5 基于维基百科汉藏词典获取流程

(1) 维基百科对所有语言的数据信息都进行了开放,本文直接下载汉文维基百科数据包(1)http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2.,格式为XML,大小为6.91 GB,涵盖了汉文维基百科所有数据信息。

(2) 获取的汉文数据中同时存在繁体和简体,本文直接利用开源的opencc(2)https://github.com/BYVoid/OpenCC对语料进行处理,将数据中的繁体转化为简体。

(3) 利用基于模式匹配的方法将景点名、地名及其对应的经纬度信息抽取出来。

此外,还人工获取了“西藏藏语言文字网”(3)http://www.zyw.xizang.gov.cn/xzyw/message!firstPage.do公布的西藏地区景点汉藏翻译和地点汉藏翻译来作为对旅游领域汉藏词典的扩充。最终,构建的汉藏词典详细数量如表1所示。

就技术而言,庄浩认为现在的印刷包装行业并不是很多人误认为的“门槛低”,其确可以称为有一定技术含量的行业,就以最终呈现的印刷包装产品为例,如今很多产品中都蕴含着创新技术的元素,如用手机蓝光才可以映射出文字图案的防伪技术;采用与瓦楞纸性能一样,但更轻便、成本更低的纸张材料,等等。厦门吉宏在技术方面的创新,实则是以客户需求为出发点而开展的。在庄浩看来,客户的满意是技术创新的目的之所在。

表1 藏汉词典数量

通过构建的汉藏旅游领域词典将获取的汉文景点知识翻译为藏文,以此获取准确的藏文旅游知识库。

3 实验结果分析

3.1 数据集构建

利用Xpath网站爬虫技术爬取汉文景点介绍文本。首先,将爬取的汉文语料经过分句、分词、词性标注等预处理过程,然后进行人工标注获取标注语料,共计8 479条实体关系实例,每种关系类型按照训练集和测试集8∶2进行随机分配。其中,训练集包含6 783条实例关系,测试集包含1 696条实例关系。各种关系类型标注详细数量如表2所示。

表2 各种关系类型标注数量

3.2 评测指标

本实验对于每一类关系采用的评价指标是: 准确率P(Precision)、召回率R(Recall)、F1值(F1-Measure),具体如式(8)~(10)所示。

其中,TP表示测试集中某类正确抽取的关系数量,NP表示错误抽取的关系数量,NR表示某类未抽取到的关系数量。

3.3 实验结果及分析

3.3.1 旅游领域关系抽取结果分析

在分析了旅游领域关系抽取特征的基础上,本文在词表示中融合了丰富词性特征。在相同语料规模(8 479句)上进行对比实验,以BLSTM加词向量(BLSTM+C)(即令α=1)为基准实验,并在此基础上融合词性向量(BLSTM+C+X)(即令α=0.5)进行对比实验。

迭代次数分析图6展示了在词表示中融合词性信息进行旅游领域关系抽取实验时,BLSTM神经网络前500次迭代的分类准确率,可以看出每轮迭代效果词表示中融合词性向量(BLSTM+C+X)准确率都要明显优于仅使用词向量(BLSTM+C)的模型。此外,由折线图可发现,两组实验收敛需要的迭代次数基本保持一致,在迭代400次时,实验均达到了最优效果,因此,此实验选择的迭代次数为400。

图6 BLSTM迭代前500次效果

关系抽取实验结果分析迭代次数为400时,对两种方法每种关系类型抽取结果详细分析,结果如表3所示。

表3 融合不同特征旅游关系抽取实验结果(%)

续表

(1) 在旅游领域关系抽取中,当词表示中融合词性向量时,实验准确率和召回率都有较大的提升。具体分析实验结果,在实验(BLSTM+C)中会错误判断的关系类型,在实验(BLSTM+C+X)中部分可以修正。

例如: “双鱼湖[e1](na)在河南县柯生乡[e2](ns)南侧的黄河滩地上。”

(双鱼湖,柯生乡,坐落关系)

在实验(BLSTM+C)中会被错误地分为“临近关系”,融合词性向量后在实验(BLSTM+C+X)中就可以正确进行分类,因为“坐落关系”的实体e2为地名,词性只可能是ns。

(2) 当实体e2的词性对关系分类有较好的指示作用时,其训练语料较少时,加入词性向量后实验效果提升更明显。例如在训练集中“临近关系”、“相关关系”语句相对较少,融合词性后其F1值分别提升了10.82%、8.55%。

(3) 在以上两组实验中“建立关系”“临近关系”和“相关关系”的准确率和召回率相比其他的关系类型较低。主要是由于这三种关系类型标注语料相对较少,且同一种关系类型其句型种类较其他关系类型丰富多样,因此导致其准确率和召回率相对较低。

3.3.2 藏文景点知识获取结果

通过构建的汉藏旅游领域词典将获取的汉文景点实体翻译为藏文,以此构建藏文景点知识库。汉藏翻译效果采用覆盖率指标,覆盖率计算如式(11)所示。

(11)

最终,景点、地点、人名、教派四类实体翻译覆盖率详细信息如表4所示。

由表4可知,基于维基百科等方法构建的汉藏旅游领域词典对实体翻译覆盖率平均值为70.44%,其中,由于“所属类别”实体相对比较单一,因此对所属类别实体翻译覆盖率较高;而对人名、地名、景点名翻译覆盖率相对较低,主要原因是对于不知名的人名、地名、景点名,例如: 白玛白扎、森多乡、茶纳山等在维基百科等网络中缺少对该实体词的介绍,因此也就无法获取到其藏文翻译。此外,由上述分析可知,基于维基百科等方法构建的汉藏旅游领域词典已达到实际应用水平。

表4 实体翻译覆盖率

4 知识图谱可视化展示

将获取的汉藏双语景点知识属性关系以数据库形式结构化存储,利用D3.js结合JavaScript开发出基于B/S的汉藏旅游知识图谱系统,用文字、图片、力导向图等多种形式将获取的旅游知识可视化展示。系统功能主要包含以下两部分:

(1) 同一省份内旅游景点知识图谱模块。按省份检索并展示同一省内旅游景点知识图谱。将关系抽取获得的景点及其属性关系按照省份进行分类,并以知识图谱的形式展示。知识图谱支持放大、缩小和移动,当鼠标单击某个实体时,可以突出展示与单击的实体存在联系的实体,其他实体都灰度展示;当鼠标指到实体连接线时,文字展示两个实体间存在的关系类型;同时该页面也支持单个景点属性关系检索展示。如图7所示,输入“西藏”,单击“提交”按钮,即可以网状图形式展示出“西藏自治区”内所有景点的属性关系信息以及景点与景点之间的联系。

同时,该界面还支持单个景点属性关系检索。如图8所示,输入“布达拉宫”,页面便采用力导向图形式展示“布达拉宫”相关的属性知识;当箭头移动到实体节点间的连线时,会显示两个实体间的具体属性关系,如图中显示,“布达拉宫>松赞干布: 建立关系”。

(2) 景点属性知识查询界面。该界面分两部分进行展示: 第1部分是用力导向图展示与景点相关的属性知识,不同关系类型用不同颜色表示;第2部分是图集,展示了该景点的图片信息。如图9所示,输入景点“小昭寺”进行查询,图中展示了与“小昭寺”相关属性知识、图集信息,让人们方便快速地对景点有全面的了解。

图7 “西藏”地区景点属性关系图

图8 “布达拉宫”属性关系展示图

图9 “小昭寺”汉文检索结果

最终,旅游知识图谱中包含藏族地区943个景点共计6 479个属性关系知识。

图10 “”(布达拉宫)藏文景点检索结果

5 结束语

本文利用BLSTM神经网络模型进行旅游领域关系抽取,提出一种融合词性特征的词向量表示方法,实验结果也证实融合词性向量的模型的准确率、召回率和F1值均要优于传统的词向量模型。其中“临近关系”“相关关系”在词表示中融合词性后其F1值分别提升了10.82%、8.55%。此外,通过基于维基百科等方法构建汉藏旅游领域词典,将获取的汉文景点知识翻译为藏文,最终获取藏文旅游知识,对景点、地点、人名、所属类别的翻译覆盖率分别为73.24%、63.17%、60.00%、85.35%,平均值覆盖率为70.44%,已达到实际应用水平。由于本文中构建的汉藏词典是静态封闭的,后续工作中,将尝试使用汉藏跨语言词向量等方法来动态地扩充汉藏旅游领域词典,建构更加全面的汉藏旅游领域知识图谱。

猜你喜欢

汉藏维基百科汉文
文化差异背景下高职院校汉藏混合班“1+X”证书制度推广存在问题及对策研究
《内蒙古师范大学学报(自然科学汉文版)》征稿简则
维基百科青年
《内蒙古师范大学学报(自然科学汉文版)》征稿简则
乐器名称汉文译名小议
民族地区藏汉双语教育问题研究
四十年来黑水城汉文佛教文献研究的回顾与展望
民间叙事传统与汉藏文化的交融
APP
IBM的监视