APP下载

中医文献语料库建设与顶层设计刍议*

2018-02-13闻永毅王治梅

西部中医药 2018年7期
关键词:语汇专业术语分词

闻永毅,王治梅

陕西中医药大学外语学院,陕西 咸阳 712046

关于中医文献语料库建设的讨论已经持续了近20年,研究内容既涉及到语料库的建设目的、标注方法、双语库建设等共性问题,也涉及到中医文本处理、词性标注、检索方式等具体问题[1-3]。然而,这些局部性、个案性研究尚未综合成为一个完整的中医文献语料库系统,导致库文件标注、自动处理工具、数据分析、信息抽取等子系统互不兼容、难以发挥应有的作用。本文从顶层设计的视角,分析中医古典文献语料库建设过程中必然遇到的几个基础性问题,指出解决这些问题可能涉及到的相关要素。然后以此为线索,讨论这些要素跟语料库子系统之间的关系,说明中医语料库建设过程中了解全局、整体布局的重要性,并提出一些特定问题的解决方案。

1 中医文本的基本特征与自动处理系统的协调问题

1.1文献的版本问题中医古汉语文件跟其他汉语文件比较,最为突出的特征之一就是同一著作多种版本,而且版本不同,内容差异较大。据报道[4],《黄帝内经》及其注解的各种版本有几十种,《神农本草经》也因版本不同而收录条目、或编排顺序会有所差异。版本选择跟语料库建设的目的直接相关,以版本考订、字形变迁为目的的文献语料库只能选择古籍版本。初始库文件的版本不同,统计出来的基本数据如字数、段落、章节等必然因之而不同。

对于重视语义研究的语料库建设项目来说,深加工库文件是一个必备环节。深加工的库文件只能存储为纯文本格式,而且使用简化汉字是我国的基本国策。此种条件下,语料库的初始文件应该首选权威机构出版的简体汉字版本,并且所选版本应该尽量跟某种古籍的文本内容一致。同时,是否删除简体字版本中添加的注解类文字又是一个需要综合考虑的问题。更改初始文件有违语料库建设的客观性准则,但是却能够保持中医文献资料的原始风貌,避免现代汉语对古汉语文件的沾染。

1.2同义词、异体字问题异体字、通假字、错讹字、繁体简体字混用等现象是中医文本的另外一个显著特征。从语义关系方面看,特定字词的对应异形符号是严格意义上的同义词,如“脏腑、藏腑、藏府”。再者“润泽、泽润”“浅深、深浅”“十二经、十二经脉”等词也应该是严格的同义词。就同义关系而言“皮肤、肌肤、尺肤、肤”或许也可认定为同义关系。

根据粗略调查,中医经典五部里“瘈疭”使用了7次,对应的异体词“瘛疭”出现了8次,“瘛”单独使用了16次,“瘈”使用了1次,这些词形是否为同义关系暂且不论。语料库建设中这种异体字词虽然不影响语料库的文字处理过程,但是,当面临语料库检索或者信息抽取任务时,如果语料库建设初期没有考虑同义词的处理方案,提取“瘈疭”信息时,就只能检索到7次,而不是15次。如果这几个形符是同义关系,那么信息统计量应该是32次,而非7次。可见同义关系对语料库的检索效度以及对信息分析有重要影响。

1.3生僻字问题医古汉语文献的另一个突出特征是生僻字、罕见字问题。在纯文本格式下,很多生僻字、罕见字无法保存,如何处理这些字词需要在程序设计和库文件标注方式之间进行协调,确保检索、信息抽取等环节所需的标注符号设计到位。有研究报道称[5]可以使用特定符号替代这些生僻字,这需要语料库管理系统的内外链接、检索方式调整等复杂问题。

1.4标点符号问题据邢玉瑞[3]研究称《汉语大词典》中虽然收录了少量中医学方面的词汇,但是由于缺乏中医学知识,存在错误的释义。中医学研究的重点是语义概念、医理治则等方面,不太关注文本形式,特别是文本的段落标记、标点符号等问题,其中有一些问题已然成为中医文本的一种特色,例如中药方中,多个组成成分之间没有标点符号,而且已经成为中医方剂资料的一种独特篇章规范,如:

“夫大病之主,有中风,伤寒,寒热,温疟,中恶,霍乱,大腹水肿,肠澼,下痢,大小便不通,贲豚,上气,咳逆,呕吐,黄疸,消渴,留饮,癖食,坚积,癥瘕,惊邪,癫痫,鬼疰,喉痹,齿痛,耳聋,目盲,金创,踒折,痈肿,恶疮,痔,瘘,瘿瘤,男子五劳七伤,虚乏羸瘦,女子带下,崩中,血闭,阴蚀。”(《神农本草经·卷第一》)该句是一个典型的存现句,“有”之后的列举项目虽然很多,但均是并列关系,标点符号应该使用顿号,而非逗号或者其他。在中医学看来,这种标点瑕疵不是问题,但是对于计算机自动句法分析系统而言,标点符号却是极其重要的参照点,用来区别句子、短语、并列关系等复杂句法语义关系。中医文献中的标点符号问题五花八门,如标点缺失、标点误用、汉英标点混用等,如何处理文本中非规范性标点符号,需要在语料库文件录入之前,综合语料库的建设目的,预先设计出恰当的解决方案。

2 中医专业术语的分词与标注方法问题

汉语语言研究中关于词与短语的界定标准及其语法地位问题一直存在争议,素有字本位、词本位、甚至短语本位之争,为了解决这一问题,《暂拟汉语教学语法系统》[6]提出了“分词单位”概念,即“汉语信息处理使用的具有确定语义或语法功能的基本单位”,可回避相关的争论。但就中医文本的专业术语界定,由于年代久远,汉字表达的概念古今差异巨大,在今人眼中,古汉语的多字组合体是词还是短语,已经不易判断。认定一个字符串是词还是短语,只能依赖理解者的古汉语素养,这使中医术语的分词工作带上了强烈的主观性色彩。

中医文件的分词工作只能分阶段实施。首先解决中医学的专业术语问题,需要中医学专家的支持。中医学高度关注的是概念问题,将很多短语认定为术语,同时又可能忽视介词、连词、副词、语气词等语义较虚的词,也可能混淆动词和形容词。因此,在解决了专业术语分词问题之后,还需从语言学的角度对分词结果进行第二次处理。总体上看,中医专业术语分词过程中经常引起争论的问题主要有以下几种类型:

第一,篇章名问题。有人认为,篇章名,特别是经典著作如《黄帝内经》《灵枢经》《神农本草经》等的篇章名称是一个整体,跟书名一样,不可分割;方剂名也是专业术语,不可分割。如此,《金匮要略》中的“四时加减柴胡饮子”就是一个词,《难经》中的“八十一难”也是一个词。不过现实应用中汉英翻译、词典编写等方面,把篇章名称作为术语的标准并没有贯彻到底,而是选择性的[7]。再者,如果坚守篇章名为中医专业术语的标准,自然而然又会出现章节名是否为专业术语的问题。

第二,整体与局部问题。对于中医学整体而言,有一些语汇只有在特定作品中其语义才是明确的;一旦离开特定作品或者特定篇章的大语境,其语义可能模糊不清。也就是说,语言形式相同但语义受制于具体语境。这方面,“数词+X”模式构造的语汇最为典型,例如:

1)已上五失守者,天虚而人虚也,神游失守其位,即有五尸鬼干人,令人暴亡也,谓之曰尸厥。《素问·本病论》(使用频率为5次,限于篇内)

2)经言七传者死,间藏者生,何谓也?《难经·五十三难》(4次)

3)夫十二经脉者,皆络三百六十五节,节有病必被经脉,经脉之病皆有虚实,何以合之?《素问·调经论》

4)凡此十二官者,不得相失也。《素问·灵兰秘典论》(指五脏六腑)

在中医经典著作五部范围内,以上语汇所指是清楚的,被一致认定为专业术语。然而,“五邪”也被认为是一个术语。据统计,中医经典著作五部中“五邪”总计出现了17次,是频率较高的一个语汇,《难经》中分布 5次,《素问》3次,《灵枢》7次,其他两部各1次。关于“五邪”的意思,《难经·四十九难》中定义为有中风,有伤暑,有饮食劳倦,有伤寒,有中湿,此之谓五邪。《素问·宣明五气篇》解释为春得秋脉,夏得冬脉,长夏得春脉,秋得夏脉,冬得长夏脉,名曰阴出之阳,病善怒不治,是谓五邪,皆同命,死不治。《灵枢·五邪》篇中专门讨论五邪问题,但在《灵枢·刺节真邪》篇中又说:病有持痈者,有容大者,有狭小者,有热者,有寒者,是谓五邪。由此可见,“五邪”的意思是随语境而变化的,应该是一个短语,《本草经》中的“黄芝味甘,平。主心腹五邪,益脾气。”和《金匮要略》“五邪中人,各有法度,风中于前,寒中于暮,湿伤于下”两句中“五邪”的确切所指需依据语境而定。

第三,短语规则与语汇形式问题。很多四字语被中医学界普遍认定为术语,其中有些规则涉及汉语的基本语法问题,我们暂且不论。这里我们重点讨论“之”字结构规则,例如:

5)心者,君主之官也,神明出焉。肺者,相傅之官,治节出焉。肝者,將军之官,谋虑出焉。《素问·灵兰秘典论篇》

运用比喻修辞法把抽象复杂的理论精炼地浅化为通俗易懂的具体事物,导致语言形式凝聚成为一个难以分割的整体。类似的语汇还有很多,如“水谷之府,清净之府,守邪之神,诸阳之会,五谷之府,中渎之府,中精之府,传道之府、太阳之人、五态之人”等。突破四字语结构的扩展性语汇如“手太阴之正、手阳明之脉、足阳明之脉、手太阳之脉、手厥阴心包络之脉、手太阴之别”等,它们是词或是短语,一时难有定论。

关于这些语汇是否成词的问题,可以从不同角度加以考察。从词典使用者角度看,“将军之官”作为一个词条,有助于理解“心”的理论,可以列为词条。从信息抽取角度看,“足阳明之脉”与“足阳明胃脉”是同义关系,获取的信息数量应该是2条,但2条信息将难以计入“足阳明”的检索要求中,似乎应该把“足阳明”认定为词。从计算机程序设计角度看,1条规则“X+之+Y”,加上几种限制条件,就可抽取出众多类似的语汇,无需列为词条。

3 非专业术语分词中的困难问题和文本标注方法问题

除专业术语之外,其他语汇是否成词的界定标准应该按照语言学基本原则进行处理。遗憾的是由于缺乏客观、操作性强的执行标准,我们只能综合考虑各种要素,采用多个标准作为分词的依据。

第一,语义分词标准。指几个构词要素组成的语汇,一旦拆分就会丧失其作为整体所承载的概念意义。这条语义分词标准需要语感、语文修养等主观要素的参与,会引起不同程度的争论,给人以“是、可能、应该、勉强、不会”是词的感觉,例如:

1)脉瞥瞥如羹上肥者,阳气微也。《伤寒论·辨脉法第一》

2)三八,肾气平均,筋骨劲强,故真牙生而长极。《素问·上古天真论篇》

3)不更衣,内实,大便难者,此名阳明也。《伤寒论》

4)初服汤当更衣,不尔者尽饮之,若更衣者,勿服之。《伤寒论》

以上4句都是实义词,“羹上肥、一夫之论”是否为词,可能存在争议。对于“更衣、不更衣”而言,由于现代汉语中有“更衣”的说法,为了消除误解,把两者均认定为词似乎更妥当一些。不过反对者也有充足的理由认为“不更衣”是短语。

以下“可以、不可不、其中、之与、之于、以不”等语汇的语义较虚,可能会引发一些热议:

1)故经言补者不可以为泻,泻者不可以为补,此之谓也。《难经》

2)瞳子高者,太阳不足,戴眼者,太阳已绝,此决死生之要,不可不察也。《素问·三部九候论篇》

3)同阴之脉,令人腰痛,痛如小锤居其中,怫然肿;刺同阴之脉,在外踝上绝骨之端,为三痏。《素问·刺腰痛篇》

4)形精之动,犹根本之与枝叶也,仰观其象,虽远可知也。《素问·五运行大论篇》

5)其下者,引而竭之;中满者,泻之于内。《素问·阴阳应象大论篇》20次

6)五藏各有声、色、臭、味、液,可晓知以不?《难经》

第二,习惯用法标准。这是界定词的另外一条重要标准,涉及使用频率、古今概念继承性、短语规则等几个相互关联的要素。例如“目瞑、汗出、腹满、腹胀、支满、稽首、生气”等模式构成的词,其使用频率高低不等,词的认定依据主要是现代汉语中是否继续使用,或者历时文件中是否延续使用。再如“温服、不解、生死、死生、盛衰、衰盛、刚柔、羸瘦、拘急、不安、烦躁”等模式构成的词也如此。个体语汇使用频率低,但构词方式显著的四字结构如“虚者补之、坚者削之、客者除之、塞因塞用、阴平阳秘”等在语义聚类、规则约束、和谐韵律等语言深层机制的影响下,四个汉字被聚集在一起,形成了难分难舍的字组,已经很难说是词还是短语。这些规则在缺乏形态变化的汉语语序中发挥了独特作用,把众多高频多义的汉字以语义块的形式从线性序列中分离出来,避免了很多歧义现象的发生。

中医文本素以用词精练夸张、诵读朗朗上口而备受赞誉,这种文风可能跟古代传授中医知识、宣传治疗效果、塑造行业形象等目的有关。但在今人眼中,这些语汇就是领域内的习惯用语,他们要么表达了一种概念、要么描写了一种症状、要么刻画了一个过程或者事件,这种情结使得词与短语的界定工作变得更加困难。

第三,多义字消解的成词问题。这是从有利于自动句法分析角度提出的分词标准,分离出来的词多数仅用于机内词典。一字多义现象在古汉语中远比现代汉语中丰富多彩,不过在限定语序或者句法结构中,单个字的意思却是清楚的,如下列句子中的“生、足、上、下”等字。这些字一旦脱离特定的句式结构,语义很难确定。为了消除多义字在自动语法分析时引发的困难,有必要把特定句法条件下的多义字按照词级单位进行处理,如“心下、腹中、背俞”等,比如:

1)寅者,正月之生阳也,主左足之少阳;未者,六月,主右足之少阳。《灵枢·阴阳系日月》

2)太阴之为病,腹满而吐,食不下,自利益甚,时腹自痛。若下之,必胸下结鞕。《伤寒论》

4 问题的解决方案

根据中医古汉语文献的中医学特征,建设中医文献语料库的目的有别于其他类型,要求语料库不仅能够服务于语言研究,还能够服务于中医学的字词语义考证、术语标准化、信息抽取、中外语言翻译等研究任务。为了实现建库目的,必须充分考虑库文件分词、语法标注、自动处理工具设计、信息抽取方式等环节的协调与兼容问题,确保各个环节所需的标注符号完整统一、层次分明。文中重点讨论了中医文献语料库建设中常见的几种困难问题,特别是分词问题。从现有汉语语法研究的实际情况看,词的认定标准短期内恐怕难有实质性突破。但是,高质量汉语语料库建设离不开分词环节,离不开自动处理和自动分析工具。对于自动语言处理系统而言,词就如同全局变量,是一个覆盖整个运算过程的值;短语则是局部变量,其作用域被严格限定在特定的函数内部,两者截然不同。如何才能既满足计算机程序设计的严格要求,又能够兼顾主观性浓烈的中医术语分词、乃至现代汉语分词的结果,是一个紧迫又现实的难题。

根据以往研究经验,要解决汉语分词难题,最佳方案是句法理论层面上实现词性与句法功能的对应关系;其次是在库文件标注技术方面寻找突破口,把库文件加工成为一个多层次的数据结构(不是简单的一个词对应多个标注符号)。具体地说,就是突破词性标注这个单一参数,增加语法标注的层次参数,在低层面实现语义类型和语法类型相互衔接,以短语规则约束语义类型;在较高层面实现句法功能与短语规则的统一,用句法功能约束短语规则,最终达到句法分析、短语分析、双语短语及对齐等语料库建设目标。

猜你喜欢

语汇专业术语分词
基于数据库的专业术语知识图谱自动识别设计
分词在英语教学中的妙用
看懂体检报告,提前发现疾病
结巴分词在词云中的应用
结巴分词在词云中的应用
用歌剧语汇展示戏剧力量——解读悬疑歌剧《马克若普洛斯档案》
《荆楚岁时记》饮食类语汇探析
向大师致敬
美国航空中英文官网隐私政策翻译对比分析
聚焦现在完成进行时