APP下载

中英对照中医药术语数据集

2021-10-13梁昊吴佳泽段伦慧彭清华胡志希周小青

关键词:中医药学会术语类别

梁昊,吴佳泽,段伦慧,彭清华,胡志希,6,周小青

1.湖南中医药大学中医学院,长沙 410208

2.湖南中医药大学中西医结合学院,长沙 410208

3.中国中医药信息学会中医诊断信息分会,北京 100700

4.世界中医药学会联合会中医诊断学专业委员会,北京 100020

5.国际数字医学会数字中医药分会,长沙 410208

6.中国中西医结合学会标准化技术专业委员会,北京 100700

7.世界中医药学会联合会翻译专业委员会,北京 100020

引 言

为了促进中医药及民族医药的国际化,方便在学术科研、教育教学及经济贸易等领域的沟通交流,中国官方及中医药国际组织一直致力于中医药标准化和规范化。术语规范,尤其是中医药英语术语规范,是中医药标准化进程中最基础、最亟待解决的问题[1]。得益于谢竹藩、帅学忠、李照国等前辈们的不懈努力,多部术语标准先后出版并广泛传播。人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》是当前知晓度和应用率最高的3 个术语标准[2-3]。然而,近几年在阅读文献和教学中发现,学生、中医从业者、科研工作者对中医术语标准的知晓度和使用频率不高[4]。中英文的中医/中西医结合类学术期刊投稿指南鲜有要求投稿时注意术语规范或推荐使用已经发布的术语标准。中医学作为一个偏传统的学科,尚缺乏标准化和规范化意识,在术语使用上较为随意。究其原因,当前这些术语大部分为纸质版或电子书形式,不利于查找[5];另外,3 个标准也有差异,虽各有千秋,但也有一些局限性和片面性[6]。因此,我们基于以上术语标准建设中医药术语中英对照数据集,合并词义相同的术语,研究术语差异和建立术语查询系统,为建立更权威、合理、全面的中医药术语数据库打下基础。

1 数据采集和处理方法

1.1 原始数据来源

所有数据来源于人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》[7]和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》[8]。获得所有中医术语的字段,并进行合并。

1.2 数据采集和处理方法

原始数据为WHO、PMPH、WFCMS 3 个标准的书籍或电子文档。把原始数据通过OCR 和PDF转化工具整理成规范的数据表(dataframe)格式,命名为WHO.csv、PMPH.csv、WFCMS.csv。将每个数据表每条记录均以术语的中文简体名称作为唯一字段方便进行数据合并,使用Python 的pandas包对数据进行合并和清洗。最终合并的数据表字段为:ID、中文简体、中文繁体、拼音、WHO 英文术语、PMPH 英文术语、WFCMS 英文术语、术语的英文解释(基于WHO 标准)、类别编码、类别名称。共整理数据16 189 条,其中WHO 术语3262 条,PMPH 术语6848 条,WFCMS 术语6079 条(图1)。最终合并为8975 条。

图1 数据采集和处理方法流程

1.3 数据规范化处理

为了便于进行归类,我们基于《中华人民共和国国家标准GB/T 13745-2009 学科分类与代码》[9]进行了更进一步分类(表1)。部分分类下没有条目,是为了以后填充术语而暂时保留。文档编码为UTF-8,针对生僻字或数据合并后可能出现的乱码,根据原始数据进行修正。每条数据的繁体中文和拼音均使用计算机自动生成,为了避免多音字错误,对一些常见多音字进行了拼音修正。对于某个标准中没有的英文术语,保持该字段为空。只有WHO 标准提供了术语的英文解释,对于WHO 中没有的术语条目,术语的英文解释字段为空。所有方名、药名均为实体词首字母大写,所有简写均为大写字母,所有穴位名均为大写字母;其余英文术语均为小写。数据集采集和处理由吴佳泽完成(7 年编程经验,在 GitHub 拥有 10 项开源项目,荣获 Arctic Code Vault Contributor,https://github.com/BillEliot)。

表1 术语分类表

2 数据样本描述

2.1 数据结构

本数据集包含1 张数据表。表中有10 个字段,包括ID、中文简体、中文繁体、拼音、WHO 英文术语、PMPH 英文术语、WFCMS 英文术语、术语的英文解释、类别编码、类别名称。每个类别的数据量如表1。

2.2 数据样本展示

以中医术语“关格”为例,表2 全面展示了该术语的中英文术语名称和英文解释。归类以类别编码和类别名称表示,可根据表1 归类对应。

表2 中医药术语中英对照数据集样本展示

3 数据质量控制和评估

在通过Python 完成数据合并后,我们依靠人工核对的方式对数据进行修正。由2 人首先对数据对应性问题进行核查,保证无串行、错位等现象;然后对照源数据对数据转化中出现的乱码分别进行修复;重点核对生僻字和多音字条目的拼音。对于源数据中本身就是乱码,无法进行核实的,暂时保留,待以后通过其他途径核查条目确认后再进行修改。对于名称不同,但意思相同的术语,暂不合并,全部视为不同记录,予以保留。同时,以Vue.js+Django 为基础框架搭建了在线检索网站(https://medai.vip)。在网站中检索术语时,若使用者发现错误的条目,可以直接点报错(图2),我们在系统后台定期进行修正。质控人员为梁昊(本科毕业于湖南中医药大学医学英语专业,从事中医英译工作10 年)和周小青(曾任世界中医药学会联合会翻译专业委员会副会长,长期从事中医英译工作)。

图2 中医术语中英对照查询系统术语报错演示

4 数据使用方法和建议

本数据集以csv 文件为存储格式,使用者可以使用主流的数据管理及统计软件来对数据进行修改和查看,尤其方便利用Python 和R 语言对术语进行文本分析和处理。同时,基于本数据集搭建了术语检索系统(https://www.medai.vip),可以在该网站上随时检索术语。任何组织和个人可以以非商业目的使用本数据集,如搭建自己的术语库或术语检索系统。

5 数据价值

国内目前未见相似中英对照中医术语数据集。随着中医在全球的发展,国家对发展中医药的支持,国外对中医的了解需求日益增加。但由于种种原因的限制,不能及时查阅到中医术语对应的英文,导致国内外中医爱好者、学习者在学习交流的过程中,存在交流障碍,限制了中医对外发展及中医的对外交流。本数据集的公开,方便了中医从业者查询术语,促进了中医术语的规范化应用,有利于学术交流和中医的继承发扬。同时,标准化的术语也方便了中医药信息化建设,尤其是在HIS、电子病历系统、医学数据分析系统中,让数据更加整洁,避免产生垃圾数据,减少不必要的数据清洗工作。与此同时,中医药领域开源的数据集稀少,不利于科学研究的开展和共享,本数据集的发布也是中医药开源模式的一次尝试,希望同行能够分享更多数据集,促进中医药的开放与发展。

猜你喜欢

中医药学会术语类别
重庆市中医药学会召开第五届二次会员代表大会暨2021年学术年会
重庆市中医药学会传达学习十三届全国人大三次会议精神
重庆市中医药学会举办第五届中医药博(硕)士论坛
重庆市中医药学会召开第五届会员代表大会
壮字喃字同形字的三种类别及简要分析
服务类别
多类别复合资源的空间匹配
中医类别全科医师培养模式的探讨
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势