年度新词语的获取
2017-08-13王宗华石彦霞
王宗华+石彦霞
摘 要:新词语是语言监测的重要内容,目前新词语的监测结果以编年本的形式向社会公布。为获取年度新词语,人们采用了全切分的方法,这种方法的统计计算量较大。文章在考察新词语在文本中的表现的基础上,提出利用新词语的外在特征来获取年度新词语的方法。
关键词:年度新词语 获取
一、引言
语言与社会生活息息相关,它是社会的一面镜子,社会的发展变化会引起语言的变化,新词语(包括旧词的新义)的大量涌現就是语言对社会发展变化的一种反映。年度新词语是语言监测与研究的重要内容,为了自动提取年度新词语,国家语言资源监测与研究中心有声媒体分中心采用词汇时空分布模型,先对语料(本年度和往年)进行全切分,根据年使用率差提取出新词语候选,再过滤,得到新词语候选集,以备人工确认(何伟,2007;侯敏,2008)。实践证明,这种方法可行、有效,缺点是统计计算量特别大,耗费巨大的计算资源。在提取新词语的实践中,我们发现年度新词语有一定的特点,即大部分带有引号,利用这一特点可以快速地获取年度新词语候选集,这种方法可以作为对前一种方法的有效补充。
二、新词语与引号
标点符号简称标点,是辅助文字记录语言的符号,是现代书面语的有机组成部分。标点符号的作用,大体上说有三个方面:1.表示停顿;2.表示语气,标明句子是陈述语气、疑问语气、祈使语气还是感叹语气;3.标示句子中某些词句的性质。
国家标准《标点符号用法》中常用的标点符号共16种,分点号和标号两大类。其中,引号的基本用法:1.行文中直接引用的话,用引号标示。例如:要普及现代信息技术教育,“计算机要从娃娃抓起”。2.行文中需要着重说明的词语,用引号标示。例如:“坤包、坤表、坤车”里的“坤”,意思是“女式的,女用的”。3.行文中具有特殊含义的词语,用引号标示。例如:新学期伊始,上海一些家长加入了流行的“晒一族”,在网络上“晒”起子女的寒假作业。(周麒,2009)
按照上述引号的用法,新词语中的新词形,因其“新”的词形,行文中需要着重说明,应该用引号标示;词语的新义、新用法,因其有特殊的含义,也会使用引号。下面我们来分析年度新词语与引号的关联性有多大。
三、年度新词语使用引号情况考察
商务印书馆从2006年起,每年出版年度新词语词典,其中收录的新词语包括新词形和有新义的词语。我们选择其中2006、2007、2008这三年的年度新词语词典(周荐,2007;侯敏,2008;侯敏,2009)进行考察。
先看词语的新义。2006年度新词语词典收录的有新义的词有:“EMBA、空调、晒”。另外以附录形式给出了2003—2005年的新词语,其中收录了认为有新义的词:“板砖、空军、鸟巢”。2007年度新词语词典正文没有收录新义词语,但以附录形式给出了2004—2006年的新词语,其中收录了认为有新义的词:“打铁、水滴、水门”。2008年度新词语词典收录的认为有新义的词有:“AB制、八宝饭、乘电梯、第四公报、纠结、控、雷、雷点、裸演、霹雳、人肉、山寨、水军、淘客、堰塞湖、一滴水、长草、做俯卧撑”。另外以附录形式给出了2007年的新词语,其中收录了认为有新义(新用法)的词“裸考”。
我们利用有声媒体语料库以及网络,考察了上述词语新义在产生的当年以及后续若干年度使用引号的情况,发现除了“EMBA、控”外,其他词在产生初期都有引号,有的后来仍有引号或者和没有引号的并存。这种现象表明,按年度监测词语新义,引号是新义刚开始出现时的一个重要外在特征。我们进一步考察了搜集的160多个新义词语(近30年来产生的)的使用情况,看其是否也伴随有引号。我们发现,这些新义词在产生初期几乎都有使用引号的相关例子,其中有些词的新义现在都感觉不到它的“新”了,后来就不再使用引号。也就是说,这些词和上述年度新义词语在引号上的表现是一样的。
再看新词形。我们考察了2008年新词语词典音序索引中A—Q部分的251个新词形。我们发现,其中217个都有使用引号的用例,占总数的86.5%。有34个没有使用引号,如“奥运骑警、奥运签注、伴飞小卫星、草根管理、常态包机、超级用户名、虫柑、川震、窗口售票机、垂直式浴室、代购手、蛋壳族、叮客”,结合这些词语出现的上下文,从这些词语的字面上就能理解其意义,不需要进行着重说明,也没有什么特殊的含义,所以没有加引号。
综上所述,词语新义绝大部分都使用引号,而新词形使用引号的大概占总数的86%,由此我们可以对新词语与引号的关系做个简单的估计:引号内的字符串大概覆盖了86%左右的新词语。但反过来,带引号的字符串,不一定就是新词语,统计表明,带引号的字符串大部分不是新词语。
四、获取2009年度语料中新词语候选集的实验
新词语一般先出现在网络,然后进入平面媒体、有声媒体(《中国语言生活状况报告2008》(下编),2009)。它们在这些媒体上刚出现时,都会使用引号,我们的目的是检验利用引号提取新词语的方法,所以,选择哪种媒体形式的语料进行实验不会影响实验结果是关键。我们利用2007、2008年有声媒体语料,在2009年有声媒体语料上,提取该年度带引号的字符串,然后过滤、去重,以获得该年度的新词语候选集。
(一)从新词语的长度、构成方面过滤候选字符串,然后去重
引号具有引用的功能,其中的字符串可能是引用的文字,从现有新词语来看,其长度一般不超过4个汉字,为了过滤明显不是新词语的字符串,提取时我们限定引号内字符串的长度在4个汉字以内。在2007年度有声媒体语言语料库上提取了63487个含有引号的字符串,其中,4个汉字长度以内的字符串有41839个,占总数的66%。在2008年度有声媒体语言语料库上我们提取了38640个含有引号的字符串,其中,4个汉字长度以内的字符串有28313个,占总数的73%。在2009年度有声媒体语言语料库上提取到了87818条引号内的字符串,其中,4个汉字长度以内的字符串有55693个,占总数的65%。
包含有字母、数字、标点符号的字符串一般不是新词语;另外,2009年度有声媒体语料中带有引号的部分字符串,在2009年前的语料中以相同形式出现过。2009年语料上提取的4个汉字长度以内的字符串共55693个,我们过滤带有上述符号的1716条,过滤与2007、2008两年重合的14571條,一共过滤16287条,还剩下39406条,减少约29.2%。
可以看出,过滤后字符串的数量还是很多,从中进行人工筛选新词语的话,工作量仍很大。由于新词语主要在三字以内,我们可以进一步缩小候选词语的数量。2009年的39406条候选串中,三字长度以内的有19527条,占总数的49.5%,候选串数量缩小了50.5%,筛选范围缩小了很多。
经对比,我们发现上述2009候选字符串包含了《2009汉语新词语》词典中的绝大部分新词语,这说明利用这种方法提取的字符串可以很好地覆盖新词语。如果进一步限制字符串的长度,比如两个汉字的长度,可以过滤更多的字符串。如2009年39406条候选串中,两字以内的有9309条,只占总数的23.6%,对这些词进行人工判断的工作量就小了很多。
(二)利用频次进行过滤
我们分别统计了2007、2008、2009各年语料中带引号字符串的频次,发现各年频次为1的字符串的数量占总数的比例分别为66.9%、65.5和66.8%,而且,频次为1的字符串一般不是本年度的新词语。以2009年度有声媒体语料中的带引号字符串为例,按频次的分布见表1:
我们可以先过滤频次为1的字符串,然后按前面所说方法再次过滤,候选字符串的数量就会少很多,可以极大减轻人的工作量。以2009年语料为例,频次大于1的字符串有27825条,其中,四字以内的字符串有21208,占76%,对四字以内的21208条字符串与2007、2008比对去重后还剩下12241条,其中三字以内的仅6902条,候选集的数量大为减少,减轻了人排查的工作量。可见,将以上两种方法结合起来,能取得很好的过滤效果。
五、结语
根据对语料的观察,我们发现新词语(包括新义)与引号有很强的关联。为了印证这个直观判断,我们考察了年度新词语词典以及我们搜集的词语新义,发现86%左右的新词语使用了引号,即引号内的字符串大概覆盖了86%左右的新词语。
但带引号的字符串绝大部分不是新词语,需要过滤。我们根据新词语在长度、构成、频次方面的特点,对候选字符串进行了过滤:过滤频次为1的字符串;过滤包含有数字、标点符号的字符串,这些字符串所占比例较小;过滤四个汉字长度以上的词语,因为新词语以四个汉字以内为主;过滤年度语料间重合的部分。在2009年度语料中进行提取并过滤带引号字符串的结果表明,这种方法简单而且有效。
(基金项目:本文系2014年度河北省社会科学发展研究课题[项目编号:2014041702]“面向语言监测的词语新义识别研究”。)
参考文献:
[1]何伟,侯敏,文采菊.流行语时空监测模型研究[A].内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C].2007.
[2]侯敏,周荐主编.2007汉语新词语[M].北京:商务印书馆,2008.
[3]侯敏,周荐主编.2008汉语新词语[M].北京:商务印书馆,2009.
[4]周荐主编.2006汉语新词语[M].北京:商务印书馆,2007.
[5]周麒主编.出版校对培训教程[M].北京:商务印书馆,2009:380-382.
[6]中国语言生活状况报告课题组.中国语言生活状况报告2008(下编)[M].北京:商务印书馆,2009:289-306.
(王宗华,石彦霞 天津 河北工业大学人文与法律学院 300401)