APP下载

天文学英语新词自动提取系统*

2015-03-24崔辰州

天文研究与技术 2015年3期
关键词:天文学新词术语

余 恒,崔辰州,张 晖

(1. 北京师范大学天文系,北京 100875;2. 中国科学院国家天文台,北京 100012;3. 全国科学技术名词审定委员会,北京 100717)

CN 53-1189/P ISSN 1672-7673

天文学英语新词自动提取系统*

余 恒1,崔辰州2,张 晖3

(1. 北京师范大学天文系,北京 100875;2. 中国科学院国家天文台,北京 100012;3. 全国科学技术名词审定委员会,北京 100717)

科技名词中文译名标准化和规范化工作是推动我国科技进步和科学知识传播的重要基础。新的科学概念和技术名词层出不穷,如何及时发现并确定新生术语的中文译名是一项普遍的社会需求。介绍了一套全新的天文学英语新词自动提取系统。该系统综合使用脚本过滤、术语识别、正则表达匹配等多种方法,能够自动追踪ArXiv论文数据库的更新,分析天文学论文的内容,生成推荐术语列表,从而将学科专家从繁重的科技新词收集整理工作中解放出来,把有限的精力集中到更能体现专业素养的新词审定工作当中。这个系统将为推动天文学等基础学科的新词收集,乃至学科标准化等工作发挥积极作用。

天文学名词;自然语言处理;术语抽取;自动术语识别;词性标注

科技名词中文译名标准化和规范化工作是推动我国科技进步和科学知识传播的重要基础。随着现代科技的不断发展,新的科学概念和技术名词层出不穷,如何及时发现并确定新生术语的中文译名是一项普遍的社会需求。如果能在外文新词尚未被国内同行广泛采用、成为新闻热点、形成舆论共识之前及时赋予准确合理的中文译名,这将在规范中文用法、丰富科技词汇、方便合作交流、传播科技知识等许多方面起到事半功倍的效果[1]。

天文学界在科技新词的引进和译介方面有良好的传统。中国天文学会自1922年成立以来一直非常重视天文学名词的审定出版工作,所组织的译名委员会早在1934年就完成了第一版的 《天文学名词》,并由当时的民国政府教育部公布。新中国成立以后,天文学名词编译委员会又在第一时间修订和增补了 《天文学名词》,并于1951年出版。改革开放以后,国务院设立全国自然科学名词审定委员会,天文学名词委员会又是最先拿出学科名词规范,并被审定公布的。从20世纪80年代至今,天文学名词审定委员会已出版天文学名词辞书共6种,对中文天文学名词的规范和普及,乃至科技名词定名工作的开展都起到了重要作用。在网络时代,天文学名词又率先于2005年开始提供词条在线检索,并逐步增加模糊检索、分类浏览、RSS订阅更新、用户修订、新词提交、名词审定等众多功能,成为天文学名词工作的重要工具和窗口[2]。

目前,科技新词的筛选推荐工作仍和百年之前的模式相差不远,主要由各个专业领域的专家从科技图书和论文中人工筛选整理。这种传统方法尽管可靠,但需要相关专家有足够的时间和精力关注前沿领域和研究热点,并及时整理反馈给专业委员会。由于是服务性的公益事务,时间一长便难以为继。中国天文学会名词委员会从1985年起,坚持在 《天文学进展》 和 《中国科技术语》 上发表天文学名词的推荐译名,到2009年一共公布16批共2636个名词,随后因无人承担选词任务而终止[3-4]。虽然在网络时代也可以通过网站接受天文爱好者和网站用户的在线推荐[5],但是由于用户数量、分享积极性和专业背景知识等多方面的限制,这样收集来的名词无论是数量还是质量都无法满足需要。

在如今这样一个知识爆炸、学科细化、专业分工日益明确的时代,仅凭个人之力已经越来越难以应对社会对专业新词的旺盛需求。因此有必要借助信息技术发展一套能够实时监测各学科发展动态,自动识别提取科技新词的自动化方法和系统,将学科专家从繁重的科技新词收集整理工作中解放出来,让他们把有限的精力集中到更能体现专业素养的新词审定和定名工作中。此外,还可以在此基础上进行热点新词、年度新词、新词流行趋势等多角度多层面的研究,为宏观科技政策的制定提供参考,丰富科技新词工作的内容。

1 信息源

术语识别所使用的语料库规模直接影响到提取结果的统计显著度。科技新词通常首先出现于专业科技论文和报告中,然后随着概念的普及而逐渐为大众所知。所以科技新词获取应当选取专业的期刊论文作为信息来源。此外,科技新词自身也在不断的变化和发展中,从首次提出到被广泛认可也需要一段时间的沉淀。因此提取的新词需要有一定的热度和稳定性,不能以单一文献或者单一作者作为信息源。综上所述,科技新词自动提取工作需要一个能够提供较为全面的学科进展的文献数据库,要有最新的科技论文并支持对全文的完全访问。

国际上绝大部分商用期刊数据库都无法满足上述要求。国内,中国知网(CNKI)、万方等数据库收录的文献又以中文为主,其关键词提取技术主要为搜索引擎优化,不适合作为术语提取工具。美国宇航局主办的天文数据系统(ADS)是天文学科最全的论文索引系统。它提供了天文及相关领域自20世纪初以来800多万篇论文和出版物的目录索引和大部分摘要。但是由于缺乏全文数据,摘要中专业术语的出现频率不够,因此没有采用。

始于1991年的arXiv.org是一个收集物理学、天文学、数学、计算机科学与生物学论文预印本的网站,ArXiv网站年提交论文数统计及各学科论文比例见图1。ArXiv网站的主服务器目前托管在美国康奈尔大学图书馆,在我国中国科学院理论物理所设有镜像。相关学科的科学家都会在论文投稿前或者发表前将文章上传到这个网站上,供全世界的同行免费下载,自由阅读,从而获得最大限度的关注和引用。目前,arXiv网站收录的论文已多达95万篇,而且仍在以每月7 000篇以上的速度增长,基本能够较为全面地反映相关学科的最新成果。

ArXiv网站的天文学(天体物理)分支(astro-ph)下设6个子类,分别为:星系天文学、宇宙学及大尺度结构、地球和行星科学、高能天体物理、天文仪器和方法、太阳和恒星物理。工作日平均每天更新文章在50篇以上。这样一个开放的科学论文数据库,可以基本满足科技新词提取对语料规模和实效性的要求。

2 原则和方法

术语识别(Automatic Term Recognition, ATR)和术语抽取(Terminology extraction)是自然语言处理(Natural Language Processing, NLP)一个非常活跃的领域,在机器翻译、知识抽取、文本挖掘、信息检索等许多方面都有着广泛的应用。简而言之,术语识别就是从文本中自动发现领域术语的过程。这项技术是准确监测并提取科技新词的前提。术语识别的主要途径有语言学方法和统计方法两种。语言学方法是根据术语在词性、词缀、词形等语言学特点来寻找符合条件类型的术语;而统计方法是构建数学模型来分析词串之间的关联度,将密切相关的单词搭配作为术语候选,也有不少方法将这两种思路结合起来以提高识别的成功率[6-8]。此外,不同语种之间的识别技术也有差别。例如,英语词素之间有空格分隔,虽然有词形变化,但词组的提取较为容易;而中文则没有这种便利,需要克服中文分词的困难。考虑到英语是当今国际科技交流的主要语言,绝大部分科技新词是首先出现、流行于英文科技文献中;而且英语的术语识别技术比较简单且成熟。因此,这里选择基于英文论文展开新词提取工作。

图1 ArXiv 网站年提交论文数统计,及各学科论文比例。其中q-fin为定量金融学,q-bio为定量生物学,stat为统计学,cs为计算机科学,physics为物理学子学科,math为数学,hep为高能物理,cond-mat为凝聚态,astro-ph为天文学。来源:http://www.arxiv.org/help/stats/2013_by_area/index

Fig.1 Statistics of the scientific papers submitted to the ArXiv over the years. Left panel: Numbers of papers in different disciplines. Right panel: Fractions of papers from different disciplines, In the plots, the ‘hep’ stands for High Energy Physics (hep-th+hep-ph+hep-lat+hep-ex), the ‘cond-mat’ stands for Condensed Matter Physics, the ‘astro-ph’ stands for Astrophysics, the ‘math’ stands for Mathematics (math+math-ph), the ‘other physics’ stands for physics+nucl+gr-qc+quant-ph+nlin, the ‘cs’ stands for Computer Science, the ‘stats’ stands for statistics, the ‘q-bio’ stands for Quantitative Biology, and the ‘q-fin’ stands for Quantitative Finance

术语抽取主要有统计学方法和语言学规则两大类。统计学方法要求术语在语料中有一定的出现频次,对于提取时事热点、新闻关键词很有效;但科技新词通常为低频词汇,出现次数明显低于常用词组和固定搭配(对于表达程式化的科技写作来讲更是如此),不适合使用这种方法。语言学规则是通过术语的构成特点和语言学特征匹配相应的词语组合,这与科技术语的形成特点比较吻合,应有相对更高的识别率。不过,通过语言学规则得到的组合词和常用词组偏多。如何有效地降低这类名词的比例便成为科技术语提取的关键。

科技术语有其自身的特点,如果根据这些特点做针对性的优化限制,可以有效地提高术语提取的效率。譬如:

(1)新词监测应有明确的范围限制。科技新词首先出现于专业的期刊文献,然后才被网站、报纸、科技杂志等媒体报道,因此限定术语识别的来源可以有效地排除误判。而对各个学科的独立监测也可以在源头上解决新词的学科分类问题。

(2)术语识别基于篇章进行。科技名词会在相关的文章前后反复出现,单篇中的术语复现频率会因此增高很多,容易发现。而且这样还可以建立术语同所在论文之间的关联度,进而为术语溯源提供方便。基于语料库的大范围平权搜索只会降低小领域术语的相对出现频率。

(3)科技论文中术语新词的出现形式相对固定,通常会用引号强调、括号注释或给出明确的定义。设备和项目名称则会有对应的全称和缩写。使用模式匹配可以较为容易地提取这部分格式固定的名词。

这些原则都是不依赖于具体术语识别方法的。为了测试这些原则的有效性,采用最简单的词性标注方法提取术语。词性标注(POS tagging)是利用语言学规则进行术语提取的一种方法,对英文尤其有效。这种方法根据参考词典将句子中的每个词指派一个合适的词性(名词、动词、形容词等),然后便可以根据构成名词的常见词性组合来提取词组[9]。

在此算法的基础上以学科文章为单位进行术语分析,并使用随机选取的10篇文章作为测试样本,测试基本模块的功能效果。

3 系统设计与实现

这套在线自动运行的新词发现系统,能够根据arXiv网站每月更新的天文论文自动生成推荐新词列表,供相关领域的专家审核参考。基本流程如图2。

图2 新词提取系统流程图

Fig.2 A flowchart of the Terminology Extraction system

根据arXiv的RSS输出获取每月的文章列表,然后下载原始文件,从中提取TeX文本源文件;通过TeX语法过滤脚本去除格式控制命令,以及公式、表格等冗余内容;然后使用词性标注方法提取每篇文章中多次出现的固定词组作为候选术语,同时使用正则匹配提取缩写词,并统计出现次数;根据英语词典、天文词典等已有的术语库对得到的候选词组进行初步过滤,得到每篇文章的候选名词列表。每篇文章提取的术语包含频次和长度两个特征量。然后以月为单位统计所有候选名词出现的总次数、相关文章数和具体文章编号。这样就可以追溯到每个词组的原始出处,有助于随后的人工筛选和定名。为了便于审阅核对,系统将最终的结果以网页的形式实时发布。

具体步骤和处理方法分述如下:

(1)TeX过滤

arXiv网站接受的论文格式主要为TeX格式,这种格式在科学排版中应用广泛。同时,arXiv也接受PDF格式的文件。TeX文件是包含全部信息的纯文本,因此系统直接忽略了没有提交TeX源文件的论文。TeX文件作为学术界的排版文件标准,包含大量格式控制字符和代码,不能直接作为自然语言分析工具的输入。同时,术语提取的目标主要存在于正文中,所以系统在格式控制命令之外还需要过滤掉公式、图像、表格、参考文献等附加内容。

TeX文件中的命令和环境都有明确的特征和定义,比如,所有命令均以反斜杠()开头,行间公式都包含在美元符号($)之间,各种环境(公式、表格、图像等)则由诸如egin{}…end{}之类的标签标记,可以根据这些特征对论文源文件进行有效的过滤。

(2)术语提取

首先使用词性标注方法对语料进行初步分析。所用的词性词典是美国宾夕法尼亚大学PennBioIE项目的结果[10],包含9万基本单词和字符的词性。标注系统采用树库样本(University of Pennsylvania Treebank Tag-set),如用NN表示名词,NNS表示名词复数,NNP表示专有名词,NNPS表示专有名词复数,VB表示动词,JJ表示形容词等。目前,系统没有处理词性兼类的问题,只采用最常用的词性进行标注,在后续的工作中会持续改进。根据这个词典对整篇文章的单词进行标注,从中选出名词和名词短语。然后根据短语在不同文章和不同时期的出现频率特点,得到候选术语列表。这些候选词会与英语常用词词典、物理学词典、数学词典、天文学名词词典相比较,过滤掉已被收录的术语。

(3)缩写词提取

缩写词通常为理论、设备、机构的名称,形式相对固定。按照惯例,在论文中首次出现时会给出全称并在括号中注明缩写(通常为大写字母,但也有例外),在随后的表述中仅使用缩写即可。系统便可以根据这个特性设计相应的匹配模式提取缩写词。首先在文章中寻找只有字母和数字构成的括号内容(不包含标点符号);然后再从左括号开始向左查询n+3个单词(n为括号中的字母数),直到找到和缩写词由相同大写字母开头的单词,把该单词向右直到括号的全部单词整体作为全称候选;最后检验缩写中的所有字母是否出现在全称中。得到的术语列表也会和已有的词典库相比较,过滤已被收录的全称。需要特别指出的是,本系统不直接比较缩写,因为同一个缩写可能会对应多个不同的全称,始终以术语全称的单数形式为准。

根据科技缩写词的特点设计了宽松的提取模式,没有限制缩写字母全为大写(例如PanSTAR项目全称为Panoramic Survey Telescope and Rapid Response System),也没有要求全称所有单词首字母均为大写(例如supernova常常缩写为SN),或者首字母全部进入缩写(例如LAMOST来自Large Sky Area Multi-Object Fiber Spectroscopic Telescope),这样在不降低错误率的情况下,最大限度地保证特殊缩写词的入选。

但是系统尚不能识别包含非英文字符的缩写词,这是由于TeX文件默认采用ASCII编码,希腊字母等非拉丁字符都不是显式地保存在本文中,而是用控制命令实现的,造成识别障碍。而且包含空格和特殊字符的缩写词由于分词困难也暂时无法支持,例如碳氧白矮星carbon-oxygen white dwarf在有的文章中被简写为C+O WD。

(4)词频统计

从单篇文章中得到的术语列表包含许多常用词组和固定搭配,仅凭有限几篇文章的结果无法自动区分术语和常用词组。但是考虑到学科专业术语在相关文章中会反复提及,而在其他学科领域论文中很少出现;而常用词组和习惯表达在大部分文章中都有出现,因此可以将来自众多文章的术语列表汇总起来联合统计。

为了方便查看,系统以月份为单位汇总词表,arXiv网站每月更新的天文类论文在1 000篇左右,可以直接用于统计。将候选词在每月所有文章中的出现频率相加,得到月度总词频;记录包含候选词的所有文章作为文章数和出处;然后按总词频排序,确定优先级。这样就得到了每月的术语索引,如图3。每月的高频词直接进入推荐列表,出现频率较低的候选术语仍然保留,进入候选术语池,和之前月份的统计结果合并处理。当低频术语的复现频率达到一定阈值时,也能够进入推荐列表。这样就保证了非热门学科、小众专业词汇的收录。

图3 系统自动生成的2014年7月份候选缩略语列表

Fig.3 A list of abbreviations extracted automatically from the papers posted in July 2014

4 结论和展望

从目前的初步结果来看,这套系统能够有效地处理最新论文并给出合理的推荐术语。不过,这项工作还有很大的改进余地,比如采用更有效的术语抽取算法,设计更合理的候选词排序指标等等。这些问题会在今后的工作和系统使用中得到持续改进。

这套方法不仅可以用于天文学新词术语的提取,还可以直接应用于数学、物理、计算机、生物等arXiv网站涉及的领域。考虑到不同学科的术语可能有各自的特点,这些学科的处理仍要根据提取结果和专家反馈对算法做相应的修改。

本文所建立的这套天文新词发现系统能够自动追踪论文,自动分析内容,自动更新网站,大大减轻天文术语收集的工作量和难度。新词审定工作也有希望在此工作的基础上得以常态化。

同时,科技术语的规范性定名和审定还是科学研究活动规范化的重要方面。随着科技的进步,天文学已经步入数据密集型时代,成为一门数据驱动的科学。天文学家为了促进全球天文数据的融合和互操作,提出了虚拟天文台的方案,制订了一系列数据格式、数据模型、数据访问接口等互操作方面的标准。不但如此,还规范了天文单位、标识符、内容描述符等语义相关的内容。名词术语规范化则属于更高层次的标准化工作,有助于天文学家等科研人员之间、公众之间对于科学问题的理解和沟通。本文上述工作将对天文学的数据融合和标准化产生积极的影响。

[1] 张晖. 科技新词工作实践探索[J]. 中国科技术语, 2013(6): 5-9. Zhang Hui. Practices and thoughts on scientific neologism work[J]. China Terminology, 2013(6): 5-9.

[2] 崔辰州, 余恒, 卞毓麟. 《天文学名词》 数据库新版网站设计与实现[J]. 天文研究与技术——国家天文台台刊, 2011, 8(2): 178-184. Cui Chenzhou, Yu Heng, Bian Yulin, et al. Design and implementation of a new version of the website “Glossary of Astronomical Terms” [J]. Astronomical Research & Technology——Publications of National Astronomical Observatories of China, 2011, 8(2): 178-184.

[3] 中国天文学会天文学名词审定委员会. 第十六批天文学名词的推荐译名[J]. 天文学进展, 2009, 27(2): 189-192. The Astronomical Terminology Committee of the CAS. The 16th draft for the Chinese-translation of some astronomical terms[J]. Progress in Astronomy, 2009, 27(2): 189-192.

[4] 全国科学技术名词审定委员会. 第十一批天文学新名词[J]. 中国科技术语, 2010(3): 61-63.

[5] 崔辰州. 充分利用现代信息技术开展科技名词工作[J]. 中国科技术语, 2010(3): 19-21. Cui Chenzhou. Taking advantages of advanced information technologies for new academic glossary items collection[J]. China Terminology, 2010(3): 19-21.

[6] 张文静, 梁颖红. 术语抽取技术研究[J]. 信息技术, 2008(3): 6-9. Zhang Wenjing, Liang Yinghong. Study on the technology of term identification[J]. Information Technology, 2008(3): 6-9.

[7] 祝清松, 冷伏海. 自动术语识别存在的问题及发展趋势综述[J]. 图书情报工作, 2012(18): 104-109. Zhu Qingsong, Leng Fuhai. Existing problems and developing trends of automatic term recognition[J]. Library and Information Service, 2012(18): 104-109.

[8] 刘建华, 张智雄, 徐健, 等. 自动术语识别——对科技文献进行文本挖掘的重要技术方法[J]. 现代图书情报技术, 2008(8): 12-17. Liu Jianhua, Zhang Zhixiong, Xu Jian, et al. Automatic Term Recognition——an important method for text mining on scientific literature[J]. New Technology of Library and Information Service, 2008(8): 12-17.

[9] 于娟, 党延忠. 结合词性分析与串频统计的词语提取方法[J]. 系统工程理论与实践, 2010, 30(1): 105-111. Yu Juan, Dang Yanzhong. Chinese term extraction based on POS analysis & string frequency[J]. Systems Engineering-Theory & Practice, 2010, 30(1): 105-111.

[10]Kulick S, Bies A, Liberman M, et al. Integrated annotation for biomedical information extraction[C]. HLT-NAACL 2004 Workshop, 2004: 61-68.

A System for Automated Extraction of Astronomical English Terms

Yu Heng1, Cui Chenzhou2, Zhang Hui3

(1. Department of Astronomy,Beijing Normal University, Beijing 100875, China, Email: yuheng@bnu.edu.cn;2. National Astronomical Observatories, Chinese Academy of Sciences, Beijing 100012, China;3. China National Committee for Terms in Sciences and Technologies, Beijing 100717, China)

Standardized Chinese translations of scientific terms are important for scientific research as well as science communication. Identifying new English terms in time is a basic requirement for standardized translations. In this paper we introduce a system that is designed for automated extraction of astronomical English terms from scientific publications. The system combines several techniques, e.g. the script filter, automatic term recognition, and regular-expression match. It can automatically trace updates of the arXiv paper database, analyze contents of papers, and generate lists of candidates of new terms. By using the system the China National Committee for Terms in Sciences and Technologies can focus on deciding Chinese translations of terms instead of spending time on term collection. We expect the system to contribute substantially to standardization of Chinese translations of astronomical English terms in the near future and promote other activities of standardization in astronomy.

Astronomical term; Natural language processing; Term extraction; Automatic term recognition; POS tagging

全国科学技术名词审定委员会课题 (MCW-2013-XC1);中国科学院信息化专项 (XXH12503-05-05);国家自然科学基金委员会与中国科学院天文联合基金 (U1231108);科技部科技基础性工作专项 (2012FY120500) 资助.

2014-10-28;修定日期:2014-11-21

余 恒,男,博士. 研究方向:宇宙学、星系团、天文信息技术. Email: yuheng@bnu.edu.cn

P1; TP39

A

1672-7673(2015)03-0374-07

猜你喜欢

天文学新词术语
声音·数字·新词 等
20世纪60年代天文学四大发现
圣斗士与古代天文学
《微群新词》选刊之十四
学诗偶感
外教新词堂
有感于几个术语的定名与应用
从术语学基本模型的演变看术语学的发展趋势
天文学,地球科学