APP下载

官方微博与门户网站新闻语体的计量对比分析

2014-10-22张瑛赵雪

理论与现代化 2014年4期
关键词:语体对比计量

张瑛+赵雪

摘 要:官方微博新闻与门户网站新闻同属于网络新闻语体,二者的词汇密度均在80%以上,拟声词和叹词的总比值都很低,而陈述句的总比值都很高。二者的不同之处是官方微博新闻比门户网站新闻更倾向于书面语体。官方微博新闻的词汇密度、平均词长、成语的总比值均高于门户网站新闻,词型例比、3字及3字以下词的总比值、惯用语的总比值均低于门户网站新闻,11个词类的词型使用频率远不及门户网站新闻均衡,多用长句,句长分布比门户网站新闻更集中、更接近,而破碎度和直接引语的数量均低于门户网站新闻。

关键词: 官方微博新闻;门户网站新闻;语体;计量;对比

中图分类号:G20 文献标识码:A 文章编号:1003-1502(2014)04-0107-05

一、引言

官方微博新闻是由微博平台官方认证的企业、机构、媒体等非个人组织发布的新闻。在官方微博新闻中,不仅有文字,还可以有图片、视频、网络链接等。一般来说,每篇官方微博新闻的字数限制在140字内。门户网站新闻是以各大门户网站名义发布的新闻。与官方微博新闻一样,门户网站新闻中也可以有文字、图片、视频、网络链接等。然而与官方微博新闻不同的是,门户网站新闻并没有篇幅上的限制。

计量语体分析就是采用计量的方法来研究语体。计量语体分析“隐含着对比的原则,因为任何‘量在语体研究中作用的发挥和大小,取决于与另外一个或几个量的对比”。[1]虽然官方微博新闻和门户网站新闻都属于网络新闻,但是由于它们在传播方式、目的以及受众等方面不尽相同,所以二者在语体上也存在着一些差异。本文在真实语料的基础上,采用计量的方法对官方微博新闻与门户网站新闻进行对比分析,探讨它们在语体上的差异。

二、语料及研究方法

本文语料包括官方微博新闻样本和门户网站新闻样本两部分。官方微博新闻样本选自新浪新闻中心官方微博的“头条新闻”,我们随机选取了其中的100篇原创新闻为样本(共12381字),组建了官方微博新闻文本语料集合,命名为GFWB。门户网站新闻样本选自中国广播网、中国新闻网、新华网等门户网站,我们随机抽样选取了其中的100篇原创新闻为样本(共142382字),组建了门户网站新闻文本语料集合,命名为MHWZ。

在获取样本之后,我们采用中国传媒大学“有声媒体语言资源网传媒语料库”的在线分词标注系统,①按照粗颗粒度②对GFWB和MHWZ进行切词和词语标注,提取出词汇层面和语法层面语体标记的数据;在数据分析的基础上,我们探讨了官方微博新闻与门户网站新闻语体上的差异。

三、词汇层面上的差异

我们选取词汇密度(lexical density)、词型例比(type and token ratio)、词长、缩略语、成语和惯用语,作为官方微博新闻与门户网站新闻词汇层面的语体标记。

(一)词汇密度

学者Ure[2]将词汇密度定义为文本实词数与文本词汇总数之比。她的研究表明,英语口头语体的词汇密度在40%以下,书面语体的词汇密度高于口头语体。词汇密度的计算公式如下:

词汇密度=■ (公式1)

按照公式1,我们计算出GFWB的词汇密度为82.06%,MHWZ的词汇密度为80.87%。官方微博新闻的词汇密度略高于门户网站新闻。一般来说,词汇密度越大,书面化程度就越高。

(二)词型例比

词型例比是词例数(type)与词型数(token)之比。词型例比越低,词汇就越丰富,“书面语体一般比较舒展、严密,词汇量也较口语丰富”。[3]词型例比的计算公式如下:

词型例比=■ (公式2)

按照公式2,我们计算出GFWB中的词型例比为2.47,MHWZ中的词型例比为7.22。官方微博新闻中的词型例比明显低于门户网站新闻。也就是说,在词数相同的情况下,官方微博新闻中的词汇比门户网站新闻更丰富。

(三)词长

我们在词长这部分主要分析了平均词长和词长分布。

平均词长是总字数与总词数之比。书面语体的平均词长高于口头语体。平均词长的计算公式如下:

平均词长=■ (公式3)

按照公式3,我们计算出GFWB的平均词长为1.82,MHWZ中的平均词长为1.68。官方微博新闻的平均词长略高于门户网站新闻。

我们还对GFWB和MHWZ中的词长分布进行了统计,见下表:

从表1来看,GFWB中1字词和2字词的总比值略低于MHWZ,而3字词以上(含3字词)的总比值却高于MHWZ。GFWB和MHWZ中3字及3字以下词的总比值分别是0.95698和0.98174。这说明官方微博新闻更倾向于使用3字及3字以上的词, 门户网站新闻则更倾向于使用3字及3字以下的词。“词长在一定程度上代表了语言单位的复杂性”。[4]邓耀臣、冯志伟的研究表明,“音节数较少(小于等于3)的词汇在口语体中的平均使用频数明显高于书面语体”。

(四)缩略语、成语和惯用语

缩略语是“从已相对稳固了的较复杂的词或短语中抽取其主要成分,形成简短的词语,表示与原词语相同的意义”。[5]“成语是指历史上沿用下来或群众中长期流传、见解精辟并含有特定意义的固定短语”。[6]“惯用语是口语中形成的表达一种习惯含义的固定词组”。[6](143)

我们对GFWB和MHWZ中缩略语、成语和惯用语的总比值进行了统计。总比值代表某类词语在语料中所占的比重。词语的总比值越高,使用频次就越高。GFWB和MHWZ中的缩略语、成语和惯用语的总比值见下表:

根据表2中的数据,我们计算出GFWB中缩略语的总比值比MHWZ高79.11%,成语的总比值比MHWZ高5.52%,而惯用语的总比值则比MHWZ低3.81%。③

官方微博新闻中缩略语的总比值较高,这是由于受篇幅所限,官方微博新闻在语言上力求简练。而缩略语形式短小,恰恰符合了官方微博新闻篇幅上的要求。

官方微博新闻中成语的总比值高于门户网站新闻,而惯用语的总比值则低于门户网站。通常,成语多用于书面语体;惯用语多用于口头语体。

四、语法层面上的差异

我们选取词类、句长、破碎度和句类,作为官方微博新闻与门户网站新闻语法层面的语体标记。

(一)词类

按照朱德熙(1982)词类划分标准,[7]我们将GFWB和MHWZ中的词划分为17个类别。我们对这17个词类进行了t-检验(置信区间取95%)。检验结果表明, GFWB中的代词、方位词、介词、连词、语气词、助词与MHWZ并无统计学意义上的差异,这6个词类在GFWB和MHWZ中的均值、总比值都很接近。也就是说,在词数相同的前提下,这6个词类的词型丰富程度在GFWB和MHWZ中相差无几,也许与这6个词类都属于封闭性词类④有关。检验结果还表明,GFWB与MHWZ中名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词的数据具有统计学意义上的差异。我们对GFWB和MHWZ中的这11个词类的总比值、均值和标准差进行了统计,见下表:

从表3来看,虽然名词、处所词、时间词、区别词、数词、量词、动词、形容词、副词、拟声词、叹词这11个词类的总比值差异较小,但是它们的均值差异较大。在总比值差异较小的情况下,均值越大,词型就越少。由此可知,官方微博新闻中这11个词类的词型丰富度均不及门户网站新闻。

值得注意的是,拟声词和叹词在GFWB中的总比值均为0,也就是说,在官方微博新闻中未出现拟声词和叹词。拟声词和叹词在MHWZ中的总比值分别为0.0044和0.0033。可以说,官方微博新闻和门户网站新闻中拟声词和叹词的总比值都很低。这也许是因为拟声词和叹词多用于口头语体和文艺语体,而官方微博新闻和门户网站新闻都属于新闻语体的缘故。我们对MHWZ中拟声词和叹词的分布情况进行了进一步考察,发现它们大多出现在直接引语中。

GFWB中11个词类的标准差均高于MHWZ。标准差反映了词型使用频率的离散程度,标准差越大,词型使用频率波动就越大。这表明GFWB中这11个词类的词型使用频率远不如MHWZ均衡,GFWB中11个词类的词频差距要比MHWZ大很多。词频差异越大,话题就越集中。这说明官方微博新闻的话题比门户网站新闻的话题更集中。人们大多认为书面语体中的话题相对固定,口头语体中的话题则往往不够集中。

(二)句长

“长句中有较多的修辞成分,所以使用长句,就能够更准确、更严密地表达思想。也正是因为长句容量大,就可以对事物做详尽的描述”,[8]而短句“形体较小,字数较少,结构较简单……明白易懂,简洁有力,明快活泼”。[8]长句多用于书面语体,短句多用于口头语体。我们对GFWB和MHWZ中的句长分别进行了统计,见以下图表:

图1显示,在GFWB中,31至40字的句长所占比值最高;而在MHWZ中,则是11至20字的句长所占比值最高。GFWB句长的众数为38,MHWZ句长的众数仅为11。这些数据都表明官方微博新闻中的句子更长,更倾向于使用长句。

从表4来看,GFWB的标准差比MHWZ低7.7247,方差低352.701。标准差越低,句长分布越聚集;而方差越低,则说明句长分布越趋于平均值。这表明GFWB的句长比MHWZ更集中,且多接近句长平均值37.9365字(见图1)。由此可见,在官方微博新闻中,句长分布整齐,结构相同或相似的句子数量较多,而“句长相近、结构相似”的句子大多出现于书面语体中。

(三)破碎度

“破碎度,是指一句话中停顿次数,即一句话的零散程度”。[9]阚明刚的研究表明,书面语体的破碎度要低于口头语体。破碎度计算公式如下:

破碎度=■ (公式4)

我们将“句中停顿总次数”理解为句内点号的数量,将“语料中总句数”理解为句末点号的数量。根据黄伯荣和廖序东关于点号的划分标准和公式4,[10]我们计算出GFWB的破碎度为2.6,MHWZ的破碎度为2.9,即官方微博新闻的破碎度略低于门户网站新闻。通常书面语体的语言较为流畅,其破碎度往往低于口头语体。

(四)句类

“句类是句子按照不同语气功能划分出来的类型。一般分为陈述句、疑问句、祈使句和感叹句”。[9]我们对GFWB和MHWZ句类的总比值进行了统计,见表5。

从表5来看,无论是在GFWB中,还是在MHWZ中,陈述句的总比值都远远高于疑问句、祈使句和感叹句。官方微博新闻与门户网站新闻都属于网络新闻语体,网络新闻的主要功能是传递信息、陈述事实,所以在官方微博新闻与门户网站新闻中,陈述句的数量比疑问句、感叹句和祈使句多。

表5中的数据还表明,GFWB中疑问句、感叹句和祈使句的总比值与MHWZ有较大差异。根据表5,我们计算出GFWB中疑问句总比值比MHWZ低49.76%,感叹句总比值比MHWZ低52.94%,祈使句总比值比MHWZ低85.13%。⑤我们发现这三个句类大多出现在直接引语中。显而易见,上述差异是由于官方微博新闻中的直接引语数量较少,门户网站新闻中直接引语数量较多而形成的。

结 语

通过对官方微博新闻语体和门户网站新闻语体进行计量对比分析,我们得出以下几点结论:

第一,官方微博新闻与门户网站新闻都属于网络新闻语体,二者书面化程度都很高。官方微博新闻和门户网站新闻的词汇密度均在80%以上;拟声词、叹词的总比值都很低;而陈述句的总比值都很高。

第二,官方微博新闻比门户网站新闻更倾向于书面语体。官方微博新闻的词汇密度、平均词长、成语的总比值均高于门户网站新闻;官方微博新闻中的词型例比、3字及3字以下词的总比值、惯用语的总比值均低于门户网站新闻;官方微博新闻中11个词类的词型使用频率远不及门户网站新闻均衡,即官方微博新闻的话题更集中;官方微博新闻中多用长句,句长分布比门户网站新闻更集中,也更接近;官方微博新闻中的破碎度低于门户网站新闻,直接引语的数量少于门户网站新闻。

本文的不足之处主要有以下两点:第一,由于受到语言处理工具的限制,我们未能提取出语体的所有标记,因而我们所揭示的官方微博新闻语体与门户网站新闻语体的差异,只不过是冰山一角而已。第二,我们所选用的语料样本数量有限,这在一定程度上影响了统计数据的准确性。

今后,我们将扩大语料规模,探索出自动提取语体标记的方法,为语体研究尽绵薄之力。

注释:

① http://ling.cuc.edu.cn/cucseg/

② 粗颗粒度与细颗粒度切分标准请参看《面向语言监测的自动分词标注规范研究报告》。

③ 计算公式为:差异=■×100%

④ 封闭性词类(closed-class word)的成员数目有限,变化较少,一般可以穷尽列举。

⑤计算公式为:差异=■×100%

参考文献:

[1] 丁金国.语体风格分析纲要[M].广州:暨南大学出版社,2006.249.

[2] Ure J. Lexical density and register differentiation[A]. G.E. Perren,J.L.M. Trim. Applications of Linguistics: Selected Papers of the Second International Congress of Applied Linguistics[ C]. Cambridge: CUP,1971. 443-452.

[3] 梁奇,郑方,徐明星,等.基于trigram语体特征分类的语言模型自适应方法[J].中文信息处理,2006,20(4):68-74.

[4] 邓耀臣,冯志伟.词汇长度与词汇频数关系的计量语言学研究[J].外国语,2013,36(3):29-39.

[5] 郑阳寿. 缩略语简论[J].山东教育学院学报,2000,77(1):43-45.

[6] 邵敬敏.现代汉语通论[M].上海:上海教育出版社,2007.140.

[7] 朱德熙.语法讲义[M].北京:商务印书馆,1982.213.

[8] 赵雪.刍议广播电视语言中的长短句[J].现代传播,1996,(2).

[9]阚明刚.几个语体参数的定量对比研究——以新闻报道和访谈对话为例[J].语文学刊,2011,(9).

[10] 黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2007.

A Computational Stylistic Analysis of News on Official Microblogs and

Portal Webs

Zhang Ying Zhao Xue

Abstract: The genre of news on official microblogs and the genre of portal webs are both subgenres of internet news. The lexical density of them is over 80 percent; the total ratio of onomatopoeic words and interjections in them is rather low while the ratio of declarative sentences is high. However, the genre of news on official microblogs is more inclined to written style: its lexical density, average length of words and the total ratio of idioms are higher; token to type ratio, total ratio of words with lengths under 4 characters and total ratio of idiomatic expressions are lower; 11 kinds of parts of speech in it get fewer tokens; its sentences are longer and looser; its degree of fragmentation and ratio of direct speech are lower.

Keywords: News on official microblogs; News on portable webs; Genre; Computational; Comparative

责任编辑:宋 奇

本文的不足之处主要有以下两点:第一,由于受到语言处理工具的限制,我们未能提取出语体的所有标记,因而我们所揭示的官方微博新闻语体与门户网站新闻语体的差异,只不过是冰山一角而已。第二,我们所选用的语料样本数量有限,这在一定程度上影响了统计数据的准确性。

今后,我们将扩大语料规模,探索出自动提取语体标记的方法,为语体研究尽绵薄之力。

注释:

① http://ling.cuc.edu.cn/cucseg/

② 粗颗粒度与细颗粒度切分标准请参看《面向语言监测的自动分词标注规范研究报告》。

③ 计算公式为:差异=■×100%

④ 封闭性词类(closed-class word)的成员数目有限,变化较少,一般可以穷尽列举。

⑤计算公式为:差异=■×100%

参考文献:

[1] 丁金国.语体风格分析纲要[M].广州:暨南大学出版社,2006.249.

[2] Ure J. Lexical density and register differentiation[A]. G.E. Perren,J.L.M. Trim. Applications of Linguistics: Selected Papers of the Second International Congress of Applied Linguistics[ C]. Cambridge: CUP,1971. 443-452.

[3] 梁奇,郑方,徐明星,等.基于trigram语体特征分类的语言模型自适应方法[J].中文信息处理,2006,20(4):68-74.

[4] 邓耀臣,冯志伟.词汇长度与词汇频数关系的计量语言学研究[J].外国语,2013,36(3):29-39.

[5] 郑阳寿. 缩略语简论[J].山东教育学院学报,2000,77(1):43-45.

[6] 邵敬敏.现代汉语通论[M].上海:上海教育出版社,2007.140.

[7] 朱德熙.语法讲义[M].北京:商务印书馆,1982.213.

[8] 赵雪.刍议广播电视语言中的长短句[J].现代传播,1996,(2).

[9]阚明刚.几个语体参数的定量对比研究——以新闻报道和访谈对话为例[J].语文学刊,2011,(9).

[10] 黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2007.

A Computational Stylistic Analysis of News on Official Microblogs and

Portal Webs

Zhang Ying Zhao Xue

Abstract: The genre of news on official microblogs and the genre of portal webs are both subgenres of internet news. The lexical density of them is over 80 percent; the total ratio of onomatopoeic words and interjections in them is rather low while the ratio of declarative sentences is high. However, the genre of news on official microblogs is more inclined to written style: its lexical density, average length of words and the total ratio of idioms are higher; token to type ratio, total ratio of words with lengths under 4 characters and total ratio of idiomatic expressions are lower; 11 kinds of parts of speech in it get fewer tokens; its sentences are longer and looser; its degree of fragmentation and ratio of direct speech are lower.

Keywords: News on official microblogs; News on portable webs; Genre; Computational; Comparative

责任编辑:宋 奇

本文的不足之处主要有以下两点:第一,由于受到语言处理工具的限制,我们未能提取出语体的所有标记,因而我们所揭示的官方微博新闻语体与门户网站新闻语体的差异,只不过是冰山一角而已。第二,我们所选用的语料样本数量有限,这在一定程度上影响了统计数据的准确性。

今后,我们将扩大语料规模,探索出自动提取语体标记的方法,为语体研究尽绵薄之力。

注释:

① http://ling.cuc.edu.cn/cucseg/

② 粗颗粒度与细颗粒度切分标准请参看《面向语言监测的自动分词标注规范研究报告》。

③ 计算公式为:差异=■×100%

④ 封闭性词类(closed-class word)的成员数目有限,变化较少,一般可以穷尽列举。

⑤计算公式为:差异=■×100%

参考文献:

[1] 丁金国.语体风格分析纲要[M].广州:暨南大学出版社,2006.249.

[2] Ure J. Lexical density and register differentiation[A]. G.E. Perren,J.L.M. Trim. Applications of Linguistics: Selected Papers of the Second International Congress of Applied Linguistics[ C]. Cambridge: CUP,1971. 443-452.

[3] 梁奇,郑方,徐明星,等.基于trigram语体特征分类的语言模型自适应方法[J].中文信息处理,2006,20(4):68-74.

[4] 邓耀臣,冯志伟.词汇长度与词汇频数关系的计量语言学研究[J].外国语,2013,36(3):29-39.

[5] 郑阳寿. 缩略语简论[J].山东教育学院学报,2000,77(1):43-45.

[6] 邵敬敏.现代汉语通论[M].上海:上海教育出版社,2007.140.

[7] 朱德熙.语法讲义[M].北京:商务印书馆,1982.213.

[8] 赵雪.刍议广播电视语言中的长短句[J].现代传播,1996,(2).

[9]阚明刚.几个语体参数的定量对比研究——以新闻报道和访谈对话为例[J].语文学刊,2011,(9).

[10] 黄伯荣,廖序东.现代汉语[M].北京:高等教育出版社,2007.

A Computational Stylistic Analysis of News on Official Microblogs and

Portal Webs

Zhang Ying Zhao Xue

Abstract: The genre of news on official microblogs and the genre of portal webs are both subgenres of internet news. The lexical density of them is over 80 percent; the total ratio of onomatopoeic words and interjections in them is rather low while the ratio of declarative sentences is high. However, the genre of news on official microblogs is more inclined to written style: its lexical density, average length of words and the total ratio of idioms are higher; token to type ratio, total ratio of words with lengths under 4 characters and total ratio of idiomatic expressions are lower; 11 kinds of parts of speech in it get fewer tokens; its sentences are longer and looser; its degree of fragmentation and ratio of direct speech are lower.

Keywords: News on official microblogs; News on portable webs; Genre; Computational; Comparative

责任编辑:宋 奇

猜你喜欢

语体对比计量
高速公路合同计量变更管理策略
汉语语体语法研究综述
基于信息系统的计量标准管理
言语交际中语体的得体性探讨
语体变异的社会语言学研究路径、热点与趋势
对公司计量管理工作的一些思考
中小学语文教学中语体意识的思考
中日两国胶囊旅馆业的发展对比及前景展望
克里斯托弗·马洛与陶渊明田园诗的对比
英国电影中“愤青”与“暴青”对比研究