中医症状单元的概念词组、描述词组和派生词组
2010-01-04于东林徐志锐
于东林 田 欣 张 磊 张 伟 徐志锐
骆 真1 刘中华1 王义国3 张启明3
(1.山东中医药大学,山东济南 250355)
(2.宁夏医科大学,宁夏银川 750004)
(3.中国中医科学院中医临床基础医学研究所,北京 100700)
中医症状单元的概念词组、描述词组和派生词组
于东林1田 欣1张 磊1张 伟2徐志锐1
骆 真1刘中华1王义国3张启明3
(1.山东中医药大学,山东济南 250355)
(2.宁夏医科大学,宁夏银川 750004)
(3.中国中医科学院中医临床基础医学研究所,北京 100700)
以中医历代医案数据库中的症状原文描述为研究对象,基于科技术语的命名原则和词汇学关于词组的分类,参考中医症状学权威著作,编程提取症状单元的概念词组、描述词组和派生词组。最终得出概念词组、描述词组和派生词组的提取是中医症状名称规范可资借鉴的方法的结论。
症状单元,命名,中医诊断
症状是中医认识疾病、辨识症候及疗效评价的主要依据,规范的症状名称是顺利开展学术研究和交流的重要前提。然而中医症状尚未形成统一的名称,如“闭经”在历代医案中就有“经阻、癸停、信阻、汛事不至、信水不行、月事不潮、经信停止、经汛未至”等 143种说法,“眼睑下垂”在当代权威著作中有“上胞下垂、胞睑下垂”等不同的表达方式,容易产生歧义。故本文以历代医案数据库中的症状原文描述为研究对象,基于科技术语的命名原则和词汇学关于词组的分类,参考中医症状学权威著作,确认了 427个症状单元的概念词组、描述词组和派生词组,希望成为中医症状名称规范可资借鉴的方法。
一 定义
1.词组
词汇系统包括语素、词和词组[1]三个不同层级的单位。其中语素是最小的语音语义结合体和最小的语法单位;词是由语素构成的、能够独立运用的最小的造句单位;词组是由词和词按照一定的语义搭配关系和语法结构规则组合起来的语法单位。在症状单元的各种表达方式中绝大多数都是词组,只有少数是词。
根据词组的结构,可将其分为主谓词组、动宾词组等 14类,其中在中医历代医案数据库中能够见到的症状词组有 7类。
①主谓词组:前一部分回答或表示“什么、哪儿”之类的问题,是陈述的对象,后一部分回答或表示“怎么样、是什么”之类的问题,对主语部分加以陈述,如“汗出、鼻干、耳聋”。
②动宾词组:前一部分是动词或动词性成分,后一部分表示与动作发生关联的事物,即动作支配的对象,回答“什么、哪儿”等问题,如“矢气、嗳气、脱肛”。
③偏正词组:分为定中词组及状中词组两类。定中词组分为定语和中心语两部分,中心语多为名词性成分,定语修饰中心语,回答“什么样的、哪儿的、多少”等问题,如“臭汗、腋汗、多汗”;状中词组分为状语和中心语两部分,中心语多为动词或形容词性成分,状语修饰中心语,回答“怎样、多么”等问题,如“斜视、仰卧”。
④补充词组:分为谓词和补语两部分。谓词是动词或形容词性成分,补语补充说明谓词,如“产难、纳呆、吞咽障碍”。
⑤联合词组:由两个或两个以上部分组成,各部分的语法地位平等,不分主次,如“沉默寡言、多愁善感、时哭时笑”。
⑥连谓词组:由两个或多个部分组成,是动词性词语的连用,也可以是动词性和形容词性词语的连用,各部分之间没有语音停顿,也没有主谓、动宾、补充、联合等语法关系,如“见水欲尿、经断复来、坐而仰首”。
⑦兼语词组:由两个部分组成,前一部分是动宾词组,这个宾语又是后一部分谓词的主语,故称兼语,如“合目不开、饮水难下、行经量多”。
2.症状单元
症状单元是指内涵最小的独立症状。其中症状是指对于区分不同疾病状态具有借鉴作用的生命现象;独立症状是指不依赖于其他症状而出现于不同疾病状态的症状;内涵最小是指症状部位和症状性质的内涵最小[2]。
3.症状单元的概念词组、描述词组和派生词组
症状单元的概念词组是用以代表症状单元内涵的正式或规范的词组。症状单元的描述词组是指与症状单元的概念词组内涵一致但不同于概念词组的各种表达方式,如“大便干燥、便干、燥屎、大便硬”等都是症状单元大便干的描述词组。症状单元的派生词组是指由概念词组派生出的内涵更大的词组,如“偏头隐痛、巅顶刺痛、后头剧痛”等均是头痛的派生词组。
二 资料来源
以《全国中医图书联合目录》为线索,收集宋、元、明、清及近现代 51 186条医案建立数据库[3]。以 427个症状单元为关键词,编程提取每个症状单元对应的原文描述共计 389 580条作为本文的研究资料。
三 症状单元概念词组的确认原则
症状单元的概念词组是中医学用来表示特定生命现象的称谓,属于科技术语的范畴[4],故按照科技术语的命名原则,参考词汇学的构词语法规律制订如下原则:
①简明性原则:概念词组是用以代表症状单元内涵的正式或规范的名称,故只有表述明确、简洁、容易理解的症状名称才能作为概念词组来应用。如“牙宣”是牙龈萎缩的一种描述,虽然在历代医案中出现频数较高,但字面含义不能反映内涵,故以“牙龈萎缩”作为概念词组。
②约定性原则:一方面,症状单元的概念词组在历代医案中出现频数较高,符合大多数人的习惯用法,如医生在记录病情时常用“小便黄、牙齿松动(主谓词组)”,而不用“黄色的小便、松动的牙齿(偏正词组)”;另一方面,症状单元的概念词组常被当代中医症状学权威著作[5-7]采用。
四 症状单元概念词组、描述词组和派生词组的确认步骤
1.提取最小化原文
①剔除症状单元的加重及缓解因素,如从“头痛入夜加重”中剔除“入夜加重”。
②拆分不同属性的原文描述,如将“小便短赤”拆分为小便黄赤对应的“小便赤”和尿短对应的“小便短”。
③剔除描述性内容。描述性内容是对症状单元内涵的具体描述,属于症状单元定义的范畴,如“小便黄如黄柏汁”中的“如黄柏汁”。
通过以上步骤,得到了每一症状单元对应的最小化原文。
2.确认派生词组
如果最小化原文的内涵大于症状单元的内涵,则作为症状单元的派生词组。
3.筛选出现频数较高的最小化原文
①将内涵一致的最小化原文按照出现频数由高到低排序。如症状单元“羞明”(在历代医案中出现 138次,下同)的最小化原文有:羞明 (64)、畏光(30)、怕光 (14)、畏明 (4)、羞光 (4)、畏阳光(2)、怕见火光(1)等。
②以出现频数最高的最小化原文作为对比项,按照出现频数由高到低的顺序选择其他最小化原文构建四格表,其中 a为出现频数最高的最小化原文的频数,b为症状单元频数与出现频数最高的最小化原文频数之差,c为出现频数次高的最小化原文的频数,d为症状单元频数与出现频数次高的最小化原文频数之差。若经卡方检验无统计学意义 (α>0.05),则进行第一个与第三个最小化原文之间的比较,直到卡方检验结果有统计学意义 (α≤0.05)为止。如上例出现频数最高的最小化原文为“羞明(64)”,出现频数次高的最小化原文为“畏光(30)”,故 a=64,b=138-64=74,c=30,d= 138-30=108,经卡方检验 p<0.05,在α=0.05的水平上有统计学意义,故可认为“羞明”的出现频数与“畏光”有差异。
表 1 两最小化原文频数比较
若经卡方检验得出的频数较高的最小化原文只有一个,且表述明确、简洁、容易理解,则将其作为症状单元的概念词组。
4.参考权威著作
若经卡方检验得出多个最小化原文,则参考中医症状学权威著作中的相关描述予以确定。
如关于症状单元“消瘦”,通过卡方检验得到三个出现频数较高的最小化原文“形瘦 (533)、消瘦(526)和形体消瘦 (516)”,而《中医诊断学》《中医症状鉴别诊断学》及《中医药学名词》均描述为“消瘦”,故将“消瘦”作为概念词组。
5.参考词组类型
选取症状单元的所有表述方式中出现频数最高的词组类型作为确定概念词组的参考。如在“苔薄”的所有词组类型中,主谓词组“苔薄”占98.2%,偏正词组“薄苔”占 1.8%,故以出现频数最高的“苔薄”作为概念词组。
6.符合语言习惯
若症状单元出现频数较低,经卡方检验选取的最小化原文不只一个,中医症状学权威著作无相关描述,则依据语言习惯,或直接选取或从中概括一个表述最明确的最小化原文作为概念词组。如关于症状单元“肛门下坠 (238)”,经卡方检验得出的最小化原文有“肛门坠 (49)、肛坠 (43)、肛门下坠(41)”,其中“肛门下坠”最符合语言习惯,故将其作为概念词组。
提取了症状单元的概念词组、派生词组后,剩余的不同于症状单元概念词组但内涵一致的最小化原文就是症状单元的描述词组。
五 结果
共提取了 427个症状单元的 427个概念词组、411个症状单元的 10 979个描述词组和 418个症状单元的 11 728个派生词组。其中主谓词组占76.6%,动宾词组占 7.0%,偏正词组占 4.6%,联合词组占 4.3%,补充词组占 2.1%,连谓词组占0.07%,兼语词组占 0.01%,动词占 3.6%,形容词占 1.5%,名词占 0.3%。
如关于症状单元“咳嗽”,概念词组是联合词组“咳嗽(4049)”。描述词组有①联合词组:咳逆(331)、呛嗽 (4)、嗽咳 (2)、嗽逆 (1);②动词:咳(2686)、嗽 (362)、欬 (1)。派生词组有①动宾词组:咳痰 (444)、咳血 (178)、嗽血 (18)、咳吐红痰(3)、咳涎沫 (3)、咳吐有血 (2)、咳血痰 (2)、嗽痰(2)、咳吐鲜血 (1)、咳吐血痰 (1)、咳吐血涎 (1)、咳唾浊沫(1)、咳唾浊痰 (1)、痰嗽 (1);②偏正词组:干咳(223)、顿咳(26)、干嗽(8)。
命名依据是①卡方检验提取了频数最高,具有统计学意义的咳嗽(4049);②《中医诊断学》《中医症状鉴别诊断学》《中医药学名词》都称“咳嗽”;③在概念词组、描述词组和派生词组中,联合词组咳嗽出现的频数最高。
详细内容笔者将以著作的形式供读者批判。
概言之,本文以已建成的历代医案数据库中的症状原文描述为研究对象,基于症状单元假说,依据科技术语的命名原则和词汇学的词组分类,参考中医症状学权威著作,确认了症状单元的概念词组、描述词组及派生词组。概念词组提供了中医规范的症状名称,描述词组有助于了解不同于概念词组的各种表达方式,派生词组提供了每一症状单元所包含的所有派生症状。这一工作有望成为中医症状名称规范可资借鉴的方法。
[1]杨润陆,周一民.现代汉语[M].北京:北京师范大学出版社,1995.
[2]张启明,王义国,张磊,等.内涵最小的独立症状[J].北京中医药大学学报.2010,33(1):1-6.
[3]张启明,王义国,白舒霞,等.四诊信息中的症状单元[J].北京中医药大学学报,2008,31(11):725-727.
[4]张启明,张振中,李檬,等.作为科技术语的中医症状的命名[J].北京中医药大学学报,2007,30(12):797 -799.
[5]朱文锋.中医诊断学 [M].北京:中国中医药出版社,2002.
[6]全国科学技术名词审定委员会.中医药学名词[M].北京:科学出版社,2005.
[7]姚乃礼.中医症状鉴别诊断学[M].北京:人民卫生出版社,2005.
Conceptive,Descriptive and Derivative Phrases of the Symptomatic Units in ChineseMedicine
YU Donglin T IAN Xin ZHANGLei ZHANGWei XU Zhirui
LUO Zhen L IU Zhonghua WANG Yiguo ZHANGQiming
Based on the symp tom a tic desc rip tion in the da tabase of the c linica l records in the p as t dynas ties,w e summ a rized the concep tive p hrases,desc rip tive p hrases and de riva tive p hrases accord ing to the nom enc la ture p rinc ip le,p hrase ca tegories in sem iology lexicology and w orks of Chinese m ed ic ine.O ur results m ay p rovide a p rop osa l for the s tanda rd iza tion of symp tom a tic nom enc la ture for Chinese m ed ic ine.
symp tom a tic units,denom ina ting,d iagnos is of Chinese m ed ic ine
N04;R2
A
1673-8578(2010)03-0047-04
2010-01-02
国家自然科学基金资助项目(30772695);中国中医科学院自主选题项目 (Z0086);“十一五”国家科技支撑计划 (2006BA I08B01-05);国家科技重大专项课题 (2009ZX10005-019)
于东林 (1984—),山东阳信人,硕士研究生,从事中医理论的定量研究及临床疗效的评价研究;张启明(1964—),中国中医科学院中医临床基础医学研究所教授,博士生导师。通信方式:zhang_917@126.com。