APP下载

字母词形式特征分析

2015-03-08甜,侯

唐山师范学院学报 2015年4期
关键词:字母汉字

李 甜,侯 敏

(1. 中国传媒大学 文学院,北京 100024;2. 中国传媒大学 国家语言资源监测与研究有声媒体中心,北京 100024)

字母词形式特征分析

李 甜1,侯 敏2

(1. 中国传媒大学 文学院,北京 100024;2. 中国传媒大学 国家语言资源监测与研究有声媒体中心,北京 100024)

摘 要:字母词与传统汉语词汇在形式上有很大的区别,在词长和内部组合上独具特点。统计发现,字母词平均词长为3.92字符,长于汉语词汇的平均词长,长度为3的字母词数量最多;每个字母词中平均有3.15个字母,其中含3个字母的字母词数量最多;每个含有汉字的字母词中平均有2.25个汉字,其中含2个汉字的字母词数量最多。随着字母词中字母个数的增加,带汉字的情况会减少。

关键词:字母词;词长;字母;汉字

一、引言

字母词的产生和发展经历了从萌芽到扩散再到稳固的过程,而关于字母词的研究也经历了从起步到关注再到成熟的阶段。迄今,与字母词有关的学术论文包括对字母词定义和分类的研究,从语音、词汇等角度对字母词的研究,对字母词使用状况的调查等[1-6]。但纵观前人研究发现,对字母词形式的认识还停留在内省阶段,基于语料对字母词的形式进行量化分析的研究较少。因此,为更好地了解字母词的使用状况,有必要对字母词的形式进行量化分析。

词长和组合方式作为字母词中最直观的两种形式,对字母词使用状况的影响不可小觑。本文基于真实语料,初步探讨了实际运用中字母词的词长特征和组合方式,以期为下一步研究字母词的形式对字母词使用状况的影响奠定基础,也试图为字母词规范提供依据。

二、研究方法及语料

本文主要采用定量和对比的研究方法分析真实语料中的字母词形式特征。字母词来源复杂,形式多样,实际运用中也花样百出。根据不同的研究目的,语料的选择标准以及字母词的选取和统计标准也有所不同。

在字母词的选取和统计过程中,明确了几个问题:

第一,单个字母和符号不算字母词,如A、¥等。因为其要和特定的成分共同使用,不能单独使用,不符合词的定义,因此单个字母和符号不算字母词[7]。

第二,调查过程中,不对一词多义现象进行区分。如“ABC”一词,有“美国广播公司、美国出生的中国人”等5个不同的义项。由于现代技术的局限,目前无法自动区分一词多义,且调查字母词的形式特征,不考虑语义上的不同,故对一词多义不做区分,认为是一个词条。

第三,将“ATM机”和“ATM”认为是两个不同的词条。此举便于调查字母词中汉字使用情况。

本文选取中国最具权威性、发行量最大的综合性报纸《人民日报》作为语料。《人民日报》作为机关报,在字母词用词方面较为谨慎。通过分析《人民日报》中字母词的形式,可以更好地说明大众媒体中使用字母词的具体情况。调查共计采集2011-2014年《人民日报》145 032个文本文件、160 161 737字次。

三、字母词形式特征分析

邹玉华根据认知语言学原型范畴化理论,认为字母词是个复杂的原型概念,从形式和语言词的维度上看,有典型和非典型之分[3,p15]。本文主要对典型字母词的形式特征进行计量分析,暂不考虑非典型字母词。研究认为典型字母词须具备以下条件:

第一,形式上要典型。邹玉华指出,字母词有四个形式特征:与汉字组合;读字母名称音;形体大写;缩略[3,p61-66]。符合两个以上特征的字母词是典型字母词。

第二,语言运用上要典型。侯敏指出,语言词要符合三个条件:具有较强的概括性;具有一定的公众性;在公众传播中具有较高的使用频度[8]。符合这三个条件的字母词也是典型字母词。

本文主要从字母词的词长和组合方式两方面对字母词的形式特征进行了分析。词长分析主要包括平均词长、词长极限区间以及频次最高的词长。组合方式主要从字母词所含字母和汉字的个数及其组合方式三个角度进行分析。

(一)字母词词长

研究字母词词长,可以从不同的角度进行考察。如“APEC会议”一词,从音节角度来看,它的长度为4;而从所用字符的个数来看,它的长度为6。由于字母词中,部分字母读字母音,部分则读拼合音,从音节角度分析容易造成混淆。因此,本文从所用字符个数的角度对字母词的词长特征进行计量分析。

对语料中全部字母词和共有字母词各词长区间的词种及其比例进行了统计,详见表1。

由表1可见,词长为3的字母词在全部字母词中占39.17%,在共有字母词中占43.96%,比例最高。也就是说,在字母词中,词长为3的字母词数量最多。这与英语和汉语词语的词长使用特点有所差别。据邓耀臣、冯志伟的研究,在英语和汉语中,音节长度为2的词数量最多[9]。研究对词长为3的字母词做了进一步观察,发现词长为3的字母词基本都是外文缩略语,且读字母音,音节长度大于等于3,比英语和汉语词语的音节长度长。研究认为,这与字母词的功能有一定关联。

表1 各词长区间的词种比例

字母词的主要功能是以简便的方式表达较复杂或未曾接触过的事物。一般而言,较为复杂和未曾接触过的事物全称较长,需要由3个左右的外文单词来描述,如“NBA”的全称是“National Basketball Association”;此外,部分字母词在进入汉语系统时会被半汉化,如在后面加上汉字义标等,如“pH值”在进入汉语系统时,在缩略后加上汉字义标“值”。

我们还发现,在全部字母词中,词长区间2-4字符的字母词有76.06%;而在共有字母词中,词长区间2-4字符的字母词有86.53%。数据表明,词长较长的字母词使用频次相对而言较低,使用时长也较短,与词长区间2-4字符的字母词差异较大。

在全部字母词中,词长为4的字母词占23.54%,词长为2的字母词占13.35%;而在共有字母词中,词长为2的字母词占23.99%,词长为4的字母词占18.58%。可见,虽然在全部字母词中词长为4的字母词比词长为2的字母词多,但是词长为4的字母词稳定性差,连续三年以上使用的词数量较少。

我们对全部字母词和共有字母词的平均词长进行了计算,计算公式如下:

其中,n为最大词长,type(k)为词长为k的字母词的词种数,type为总词种。基于公式1,我们计算出,全部字母词的平均词长为3.92字符,而共有字母词的平均词长为3.31字符,长于汉语词汇的平均词长,这与长度为3的字母词较多有直接原因。

语料中,全部字母词的词长最大值达到了22;而共有字母词的词长最大值仅为9。对比两份数据中词长最大值可发现:在全部字母词中,通常会出现由两个或多个字母词组合构成的字母词,其长度一般较长,在9-22字符之间,如“TD—HSPA/TD—SCDMA多模通信芯片”是由“TD—HSPA”和“TD—SCDMA”及汉字“多模通信芯片”组合而成。这类字母词基本都是不常见的专有名词,出现频次非常低,多为一次性用词。

(二)字母词组合方式

字母词的要素有字母(拉丁字母和希腊字母)、数字、汉字、符号等。据统计,语料中仅有12.4%字母词含有数字,10%含有符号,比例较小。因此本文主要考察字母和汉字这两个主要构成要素在字母词中的个数及其组合方式。要素的个数直接影响字母词的长度,而组合方式也可以看出字母词对各构成要素的限制。

1. 字母词中字母的个数

字母词,顾名思义,一定要有字母。有的字母词只含有一个字母,有的字母词则含有多个字母。我们对语料中字母词所含字母数量进行了统计,详见表2。

表2 字母词中各字母个数的比例

表2中的数据表明,不管是在全部字母词还是共有字母词中,含有3个字母的字母词都是最多的。这与字母词的词长有关。词长为3的字母词中83.63%都是由三个字母组成的。在全部字母词中,含有4个字母的字母词占21.46%,仅次于含有3个字母的字母词。但在共有字母词中,含有1个字母的字母词所占比例比含有4个字母的字母词高。研究认为,虽然含有4个字母的字母词总数量比含有1个字母的字母词高,但稳定性不及含有1个字母的字母词。这主要因为含有4个字母的字母词大多数是专有名词和新兴事物,使用领域较窄,且使用时长较短,不利于传播和使用。

研究还发现,在全部字母词中,字母词最多含有14个字母。如“LTE—Advanced TDD制式”,该词是由“LTE”“—”“Advanced”“TDD”“制式”组成,其中,“LTE”和“TDD”是独立的缩略字母词,“Advanced”是英文词,“制式”是汉字义标。这种半缩略字母词一般字母个数比较多,但因其词长较长,不符合语言经济性原则,故而使用频次较低,稳定性较差。而在共有字母词中,字母词最多含有7个字母,如“TD-SCDMA”。“TD-SCDMA”是英文缩略语,是典型的字母词,在四年中均有使用,虽使用频次不高,但较为稳定。

研究计算字母词中的平均字母个数,公式如下:

m为最大字母个数,type(p)为有p个字母的字母词的个数,type为总词种。由公式2计算得出,全部字母词的平均字母个数为3.15,共有字母词的平均字母个数为2.55。

2. 字母词中汉字的个数

在字母词进入汉语的过程中,有些字母词会经历半汉化的过程,即在字母代码的前后加上汉字。如“IC卡”的全称为“Integrated Circuit Card”,取前两个单词的首字母“IC”,并对最后一个单词“Card”进行意译,最后便形成了字母词“IC卡”。

在字母词中,汉字的位置并不固定,有时在字母代码前,有时在字母代码后。研究就汉字在字母词中的位置进行了统计,详见表3。

表3 字母词中汉字的位置分布

从表3来看,在含汉字的字母词中,汉字的位置绝大部分都在字母代码的后面。研究对字母词中汉字的个数进行了统计,统计结果见表4。

表4 字母词中各汉字个数的比例

通过表4可以看出,全部字母词中字母词最多可含11个汉字,如“抗β—内酰胺酶抗菌素复合物”,这种词专业性较强,使用领域较窄,一次性使用率较高,较难也没有必要对其进行简化或改进。共有字母词中,字母词最多可含6个汉字,即“GPS卫星定位系统”。

在含汉字字母词中,90%以上字母词只含有1-3个汉字,且含有2个汉字的字母词最多,其次是含有1个汉字的字母词。在汉语中,二字词的数量和使用频次都是最高的,也就是人们最常使用的,那么在对字母词进行半汉化时,也就习惯于加上2个汉字的后缀,如“iPS细胞”等。此外,在只含有1个汉字的字母词中,该汉字大部分都是语素,且重复使用率很高。在这些语素中,绝大部分是后缀。这些汉字基本都是汉语语素,且构词能力非常强。“级”使用次数最多的语素,它一般可与字母和数字搭配,组合成表示排序的字母词,如“A级”、“4A级”等。

在含有汉字的字母词中,字母词的平均汉字个数计算公式如下:

l为最大汉字个数,type(q)为有q个汉字的字母词的个数,type为总词种。由公式3计算得出,在含有汉字的字母词中,全部字母词的平均汉字个数为2.25,共有字母词的平均汉字个数为1.83。

3. 字母词中字母和汉字的组合方式

通过对字母词中字母和汉字的个数的统计和分析可以发现,90%以上的词字母个数在4以内,汉字个数在3以内,但近90%的字母词总词长在4以内。那么,字母词中的汉字和字母是怎么组合使用的呢?

研究认为,在字母词中,字母的个数对汉字影响较大。字母个数为1的字母词中,有80.37%的字母词都含有汉字;字母个数为2的字母词中,有24.34%的字母词含有汉字;字母个数为3的字母词中,有12.07%的字母词含有汉字。由此研究发现,随着字母词中字母个数的增加,含汉字的情况也会减少。这是因为字母越少的字母词表示的义项越多,为了清楚地表示某一义项,就要加上相应的汉字义标。如“IPS”只有3个字母,可以表示“Internet Protocol Suite(互联网协议群)”、“induced pluripotent stem cells(诱导多能干细胞)”等多个义项,但在“IPS”后加上“细胞”构成的“IPS细胞”一词,就只表示“诱导多能干细胞”这一个义项。随着字母个数的增加,所表示的义项越来越单一化,就不需要汉字义标来加以说明。

四、结论

通过对字母词的词长、字母个数和汉字个数及其组合方式的统计及分析,研究发现字母词的平均词长为3.92字符,长于现代汉语词汇的平均词长,其中词长为3的字母词数量最多,较为稳定使用的字母词词长极限为2-9字符;每个字母词中平均有3.15个字母,含有3个字母的字母词数量最多,较为稳定的字母词最多含有7个字母;在含汉字的字母词中,每个字母词平均有2.25个汉字,其中含2个汉字的字母词数量最多,较为稳定的字母词最多含有6个汉字。随着字母词中字母个数的增加,带汉字的情况会减少。

本文对字母词的形式特征进行分析,试图为字母词研究提供语料借鉴。依据数据分析,研究认为典型字母词的词长应为2-9字符,对邹玉华提出的字母词的形式特征有补充作用[3,p61-66]。从人类认知的角度看,人们倾向于选择更便于理解和使用的词汇,大多数字母词比汉语释义更简洁,便于使用,但并非所有字母词都适合长期使用。很多学者经实验发现,第二语言的词长越长,越不利于记忆和使用。经上述统计发现,词长区间为2-4的字母词可以覆盖75%以上的使用频次,且与词长大于4的字母词在使用上有阶段性的差异。因此研究认为,就字母词的使用规范而言,应推荐使用词长为2-4字符的字母词,对于长度大于4的字母词可考虑选择相应的汉语词汇代替。

[参考文献]

[1] 陈佳璇.我国新闻语言中字母词的易读性研究[D].上海:华东师范大学,2003:13.

[2] 柴静.试论汉语字母词[D].西安:陕西师范大学,2006:7-9.

[3] 邹玉华.现代汉语字母词研究[M].北京:语文出版社,2012: 15-91.

[4] 胡明扬.关于外文字母词和原装外文缩略语问题[J].语言文字应用,2002(2):98-101.

[5] 陈佳璇,胡范铸.我国大众传媒中字母词使用状况的调查与分析[J].修辞学习,2003(4):1-4.

[6] 王秋萍.近二十年来汉语书面语中字母词使用状况调查[D].北京:中国传媒大学,2011:38-81.

[7] 潘雪莲.略论字母词的定义与定位[J].科技术语研究,2006 (2):27-29.

[8] 国家语言资源监测与研究中心.中国语言生活状况报告2006(下编)[R].北京:商务印书馆,2007:37.

[9] 邓耀臣,冯志伟.词汇长度与词汇频数关系的计量语言学研究[J].外国语,2013(3):29-39.

(责任编辑、校对:朱 燕)

An Analysis on the Formal Features of Letter Words

LI Tian1, HOU Min2

(1. College of Literature, The Communication University of China, Beijing 100024, China; 2. National Broadcast Media Language Resources Monitoring & Research Center, Communication University of China, Beijing 100024, China)

Abstract:Letter words have significant differences in form with traditional Chinese vocabulary, especially in length and internal combination. After analysis, some characteristics are found. The average length of letter words is 3.92, which is longer than the average length of Chinese word. And most letter words’ length is 3. The average number of letter in letter words is 3.15, most of which have 3 letters. The average number of Chinese word in letter words is 2.25, most of which have 2 Chinese words. In letter words, with the increase of the number of letter, the number of Chinese words is cutting down.

Key Words:letter words; length of word; letter; Chinese words

作者简介:李甜(1990-),女,山东菏泽人,硕士研究生,研究方向为应用语言学。

收稿日期:2015-01-23

DOI:10.3969/j.issn.1009-9115.2015.04.010

中图分类号:H109.4

文献标识码:A

文章编号:1009-9115(2015)04-0039-04

猜你喜欢

字母汉字
出逃的字母
用字母表示数
缓存:从字母B到字母Z
汉字这样记
汉字这样记
字母派对
汉字这样记
汉字这样记
巧排字母等