基于语言差异的弹幕文化研究
——以英语和汉语为例
2021-02-14杨欣月
杨欣月
(四川大学文学与新闻学院,四川成都 610000)
弹幕指的是在网络上观看视频时弹出的评论性字幕。“弹幕”一词最初的意思指炮火射击过于密集,以至于像一块幕布一样,为军事术语,也经常被用在弹幕射击游戏中。大量吐槽评论从屏幕飘过时效果看上去像是飞行射击游戏里的弹幕,所以网民将这种有大量的吐槽评论出现时的效果叫做弹幕。在中国,本来只有大量评论同时出现才能叫弹幕,但是随着误用单条评论也能叫弹幕了。
弹幕最早起源于日本的视频分享网站——Niconico 动画,其基本功能与You-Tube 等影片共享网站相似。2007年,Niconico 动画新增留言板功能,为用户提供可在影片上留言的功能,而留言会以弹幕的形式出现在影片上。后来国内某些视频网站例如A 站(AcFun)和B 站(Blilibili)陆续引入这种形式。在日本,这种评论(也就是我们通常所说的“弹幕”)被称为コメント(comment,注释、评论),只有国内的弹幕网站会将评论称之为弹幕。弹幕塑造一种与众不同的“围观”体验,排解一个人对着电脑屏幕而产生的孤独感,同时获得自我和群体认同,这种强社交属性使之迅速流行起来。
然而弹幕这种评论形式却没有在欧美国家的视频网站上掀起潮流。事实上,海外媒体也有关于弹幕网站为何流行不起来的讨论,但少有针对语言本身进行分析;虽然社会文化等各种因素有一定的影响,但该文认为语言文字的特点才是英文弹幕无法流行的主要原因。
1 弹幕视读
视读是一种通过大面积扫视文字,主要以大脑形象记忆及形象思维来对信息进行集群处理的阅读方式。与传统电子文本的阅读相同,视读也是一项多个神经中枢参与的复杂过程,包括视觉中枢、听觉中枢、语言中枢、记忆中枢等。
同时,弹幕视读也是一种包含多种认知行为的活动,通过视读产生知觉需要现实刺激及过去的经验等。现实刺激指的是文字信息对眼睛产生光学刺激,而人们能够理解这些文字的意思则是由于认知中的过去经验起了作用。因弹幕文本的特殊性,如实时性、时限性等特点,人们需要在短时间内扫视大量以一定速度运动的文本,大脑需要将这些文字符号进行快速的加工处理并转化为能够理解的信息,而在这个过程中经验信息尤为重要。
2 弹幕文化中的汉英语言差异
2.1 扫读难度与视读效率
2.1.1 英语表音汉语表意
与拼音文字不同,汉字兼有文字与图形的双重特征,是一种独特的图形文字。人们在阅读汉字的时候会同时刺激左脑的语言区和右脑的图像区,提取经验中的文字和图像信息进行快速的加工整合,在此过程中图像信息不需要经过类似文字转语音的过程便能刺激大脑形成思维。汉字属于具有一定表音功能的表意文字,表意文字的语言书写符号表达的是意义,用字形直接表达语意,虽然在文字结构上也有表音成分,但字音服从于字形,是间接表音。而绝大多数印欧语系的文字都是表音文字,从记录语音入手,用文字符号直接表示语音,字形服从于字音,不直接表示意义,即间接表示语意。这就意味着在观看弹幕的时候,我们一看到汉字就能想到其表达的意思(文字→意义),而看到英文的时候要先把它拼读出来然后才能明白它的含义 (文字→读音→意义),在文字信息的阅读理解过程中多了一个步骤,所以对于英语国家的人而言,听视频里的语言(发音→含义)比阅读视频里面的文字(文字→发音→含义)更容易更轻松(见图1)。
图1 文字传输进脑途径
在提取汉语经验与英文经验的过程中也存在一些差别;汉语的文本中双音节词汇占比最多,还有大量的固定短语如四字成语、谚语、歇后语等,阅读中我们一般将其视作一个整体理解其意义,因为通过过去大量的阅读实践,我们对其表现形式及意义都非常熟悉,形与意在脑中已融为一体。而英语文本是26 个字母的排列组合,单词长短不一,组合众多,很难轻松地推断出某一字母前后的字母,只能从词根、词缀、整个英文单词的程度上整体把握,另外英语单词之间的空格使得英语文本的结构较中文本更加松散。在弹幕视频中,弹幕文本以一定的速度从屏幕上成片飘过,在同样的情况下若只改变文字的形式,比起中文弹幕英文弹幕的扫读难度更大、视读效率较低。
虽然日语也是表音文字,但与英语不同的是日语是由音符直接表示音节的音节文字,而英文是由音符表示音素的音素文字。音节是由音素构成的语音片段,是听话时自然感到的最小语音单位,所以在阅读英文时需要先将音素组合成音节,阅读日语则不需要此步骤。另一方面日本处于汉字文化圈,受中国文化影响,日语中也大量使用汉字。由此可见,日语弹幕的视读效率也必然高于英文弹幕。
2.1.2 阅读知觉广度
眼睛的生理结构给阅读行为施加了很多限制。人的视网膜并不是一个匀质的感受器,只有视野中占大约15 度视角的中央凹才是视网膜中唯一真正可以用来阅读的区域。文字要进入中央凹才能进行阅读,所以在阅读的时候眼球需要不断地移动,这种注视点的移动称为眼跳。在阅读文本的时候,眼球会做着每秒钟4~5 次的跳动,即每秒钟4~5 次注视,每次注视都会新有的信息进入中央凹。
阅读知觉广度通常指阅读者在阅读文本过程中在每次注视内能获取有用视觉信息的范围。Rayner[1-3]等人采用眼动追踪技术中的移动窗口范式对英语文本知觉广度的研究取得了较一致的结论,即注视点左侧3~4 个字母空间到注视点右侧12~15 字母空间,即每次注视20 个字母左右。Inhoff[4]等人的研究采用移动窗口范式探讨了汉语读者的阅读知觉广度,实验结果显示汉字被注视的字符左侧延伸1 个字符,向右延伸3 个字符,即每次注视5 个汉字左右。
在电脑屏幕上,文字是以字符串的形式显示出来的,我们没有办法直接在电脑里面存入字符,如“弹幕文化” 这4 个字是没有办法将其进行存储的。现行的方案是将字符编码成0 和1 的数字串形式,建立两者之间的映射关系,我们把这种方案叫作“字符集”。目前最常用的字符集是UTF-8 (8-bit Unicode Trans- formation Format),它是一种针对Unicode 字符集的可变长度字符编码规则,又称万国码;UTF-8 用1 到4 个字节编码Unicode 字符;用在网页上可以统一页面显示各种语言。
在UTF-8 字符集下,一个中文字符占用3 个字节,一个英文字符占用1 个字节。前面提到,英文的阅读知觉广度为每次20 个字母左右,汉字为每次5个字左右,所以在显示屏上对于汉字的每次注视只需15 个字节左右,英文则需要20 个字节,比中文多5 个字节,每次注视停留的时间也会稍长。另一方面,英文文本都有词间空格,而汉语和日语中都没有词间空格;一般情况下弹幕的文本长度都比较短,也不需要借助标点符号将其隔开。在播放同样视频的情况下,在相同文本长度,相同阅读者视力、智力,相同熟练度的条件下,中文的视读效率就比英文的视读效率高。
2.2 字符的信息熵
美国数学家、信息论的创始人香农(Shannon)在1948年发表的文章 《通信的数学理论”(A Mathematical Theory of Communication)》一文中提出了“信息熵”的概念,用于度量信息的不确定程度。一个信源发送出什么符号是不确定的;在信源中,考虑的不是某一单个符号发生的不确定性,而是要考虑这个信源所有可能发生情况的平均不确定性,不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。在自然语言处理中,信息熵表示语言的每个字符所含平均信息量的大小,度量语言符号这个随机变量的不确定性程度[5]。
公式里的pi 是指某种符号系统中,某个符号出现的频率,熵的单位为比特(bit)。影响信息熵的因素有两个: 一个是符号的数量n,一个是符号的频率pi。固定其中一个变量,看另一个变量对信息熵的影响,可以得出的结论为:符号越多,信息熵越大;符号的频率分布越均匀,信息熵越大。
冯志伟[6]用逐渐扩大汉字容量的办法,计算出包含在一个汉字中的熵为9.65 比特,并与其他印欧语字符熵值进行了统计对比(见表1)。
表1 各语言字符的熵
通过对比可以观察到汉字的熵最大,也就是说其输出的信息量也最多。国外对英语字母的熵做了许多研究,到了21 世纪,Cleary[7]运用基于PPM(Prediction by Partial Matching) 的模型处理文本得到了更精确的结果为1.46 比特/字符。关于汉字的研究,吴军[8]等人通过大量的统计,给出汉语信息熵的上界为5.17 比特/汉字;孙帆等人基于词的语言模型估计方法得到汉字的熵值为5.31 比特。可以看出汉字的熵值仍然更大,在表示相同意思的情况下所需要的英文字符比汉字字符更多,播放视频时弹幕文本快速从显示屏上飘过,要在不错过视频内容的情况下视读完英文弹幕并理解其意思必定比视读中文弹幕更加困难。
2.3 省略与紧缩现象
2.3.1 汉语意合英语形合
意合性是汉语有别于其他语言的一个显著特点,所谓的“意合”,指的是语言单位与语言单位组合时语义上的联系。由于汉语是缺乏形态变化的语言,语言单位之间的组合注重的是语义之间的关系,所以相关语言成分之间往往包含着较复杂的语义关系,但在结构关系上并没有标志显示。句子或词语之间没有连接词,句子中没有介词和介词短语,句子缺失主语,语义是依靠词语之间的逻辑关系来显现的,凸显出意合特征,这也符合了汉语的意合特征。
汉语的意合主要靠意义来组合,而不像英语那样主要靠形合手段来组合。汉语句子中省略和紧缩的现象非常常见,省略主谓语、省略宾语、省略代词等,句内没有语音停顿,各部分紧密结合,以逻辑表达条件、因果、转折、让步等语义关系。对读者来说这些缩略不会影响文章理解,往往通过上下文就能揣测部分省略。但很讲究形式的英语句子中,主谓部分是必不可少的,而且句式结构的附属部分和修饰部分英文比中文复杂得多;动词不定式、介宾短语、主从关系、时态等,这些都是英文里重的要部分,不能轻易省略。
我们看弹幕网站的弹幕不是一条一条看,而是一片一片扫读的,提取出关键字词就能直觉反映出这一片弹幕是在说什么。当我们扫读一片一片的英文弹幕时,虽然也能提取出关键字,但是关键字关联复杂,不能瞬间明白这一堆英文弹幕的意义到底是什么。
2.3.2 弹幕中的紧缩现象
在弹幕中词汇和短语的省略紧缩现象更加频繁,弹幕因其及时性强、停留时间短暂等特点催生了大量网络缩略词及缩略短语。中国目前最大的弹幕网站哔哩哔哩在2020年发布的年度最热5 条弹幕中,除了“武汉加油”,其余4 条弹幕“有内味了”“双厨狂喜”“禁止套娃”和“爷青回”都有语言的紧缩现象。比如占据榜首的“爷青回”就是“爷的青春又回来了”的缩写。随着弹幕文化的流行,一种新的压缩词也大量出现,将每个字的拼音首字母组合代表一个词或一个短语,如“yyds(永远的神)、nsdd(你说的对)、xswl(笑死我了)、zqsg(真情实感)”等,这些缩略词也向来是弹幕中出现的高频词汇,它们不仅能快速发送到显示屏上,也让观众能在短时间内更快速地浏览大量弹幕。
其实在英语中也存在这样的现象,为了有效沟通,西方人在聊天中也会使用缩写、替代等形式;如“GOAT(the greatest of all time)、AFAIK(as far as Iknow)、BFF(best friends forever)”等。但中英文中这种形式类似的“紧缩”其时间成本和效率又如何呢,如“yyds(永远的神)”一词成为共识性的缩写是需要一段时间的,是否汉语中的紧缩结构会更有利于理解,而英文缩写需要更多压缩和解压的过程呢?
哈佛大学的F.Behr[9-12]等人运用PPMD、PPMZ、BZIP2、GZIP 等算法压缩了不同语言版本的圣经,对比压缩前后文件的大小与英文文件的比例。去除文本中的冗余信息,用接近最优编码方式对文件进行编码,理想条件下若翻译压缩等过程没有信息损失,压缩后其他语言文件大小与英文文件大小的比率值应该等于1。通过实验,得到结果如表2 所示。
表2 各种语言版本的圣经压缩后比率
通过对比发现,4 种算法下得到的中英文压缩后比率都是最小的,虽然这个实验有所局限,但是也能提供一些证据;在英语、西班牙语、法语等八大主流语言中,中文是压缩效率最低的语言。
3 结语
如今很多人喜欢看剧、看视频不仅是为了内容,而是喜欢参与弹幕讨论,但在欧美国家弹幕却始终流行不起来。在地理环境、历史、民族、文化背景等因素的影响下,中西方语言有很多显著的差异,不同的思维方式也体现在了语言模式中。中英文不同的句子结构和表现方式也反映了相异的文化内涵,体现了不同民族的价值观念:汉民族则有着重形象、重悟性的思维模式,在语言上注重隐性连贯,逻辑事理,言简意赅。英语民族有着重理性、重分析、重形式的思维习惯,在语言上以形显意,注重严谨规范,形式分析。英文文字的特征局限了其在弹幕文化中的表现力,也因此弹幕文化难以在欧美国家中流行起来。