APP下载

谈话节目语料库的构建与会话结构分析

2016-06-01珊,刘

中文信息学报 2016年6期
关键词:引导性会话语料

王 珊,刘 锐

(香港教育大学 中国语言学系,香港)

谈话节目语料库的构建与会话结构分析

王 珊,刘 锐

(香港教育大学 中国语言学系,香港)

口语语料库的建设是口语研究的基础工作,该文选择具有代表性的交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》作为语料,建立了一个小型的谈话节目语料库,并构建了包含五大类16小类的会话结构标注体系,对语料进行了会话结构的标注。统计得到打断结构309例,插入结构141例,重复结构111例,问答结构653/589例,阻碍—修正结构51/21例,反映了会话结构在数量上的不均衡分布,节目的形式、性质以及交际任务是会话结构分布的主要影响因素。会话结构组合具有模式性,该文使用Trigram方法对其组合情况进行了分析,发现语料中的高频组合是问答毗邻对,此外有大量的非毗邻性组合。会话结构组合模式不但反映出谈话节目的风格特点,还有助于分析会话中的功能性模块、会话策略的形成,进而更加深入地了解会话的运作机制。

谈话节目;会话结构;组合模式

1 引言

语料库的建设作为语言研究的基础工作,已经成为学界的共识。口语语料库建设是口语研究的基础工作。英语口语语料库的建设开始较早,建成了丰富多样的语料库,如CANCODE (Cambridge and Nottingham Corpus of Discourse in English),MICASE (Michigan Corpus of Academic Spoken English)以及TalkBank等。汉语口语语料库的建设虽然起步较晚,但也取得了相当的成果,如北京语言大学从上世纪80年代开始建设的北京口语语料库,中国社会科学院建设的现代汉语口语语料库,台湾“中研院”的现代汉语口语对话语料库(Sinica MCDC)[1],台湾师范大学的Chinese Spoken Corpus[2]等。相比于英语口语语料库和汉语书面语语料库的建设,汉语口语语料库的建设还比较薄弱,存在建库类型少、语料规模小、标注标准不一、共享程度低等问题。语料的收集是口语语料库建设的一大困难[3],传统的录音采集方式不足以满足研究的需要,因此不少研究重视利用更易获取的影视资源作为口语研究的材料。

谈话类节目(talk shows)作为一种日常可见的以会话为主要形式的语言类节目,是一种重要的口语语料资源。近年来汉语研究,尤其是话语分析领域,以谈话节目为语料来源进行了多维度的研究,如节目主持人的会话结构、语用原则、语用规律[4],谈话节目主持话语的基本话目、话回类别与功用[5-6],互动话语结构[7],语境[8]等,所运用的理论涉及伯明翰学派话语分析模式[9],关联理论[10]等。对电视访谈话语研究最为全面的当属代树兰[11],其研究揭示了电视访谈在话语结构、话语角色及其转换规律和话语策略等方面的话语特征。但目前的研究大都以理论分析为主,关于谈话节目语料库的构建和分析研究还比较少。

本文以谈话节目为材料建立口语语料库,构建了一个会话结构标注体系对语料进行标注,并对标注的数据结果和会话结构的组合规律进行了初步分析。

2 语料库构建过程

2.1 语料的选取

电视谈话节目是指,一个或多个嘉宾在主持人的导引下围绕一定的话题进行谈话的电视节目。谈话节目语料具有自然会话的性质。顾曰国[12]认为谈话节目属于有话题限制的自然会话。代树兰[11]认为电视访谈节目既具有访谈语境约束下的话语结构特征,同时具有日常谈话的话语结构性质。相比影视剧台词、相声、演讲等材料,谈话节目语料更接近自然会话,因而更适合作为口语研究的材料。

本研究选择知名谈话节目《锵锵三人行》和《鲁豫有约》作为语料。《锵锵三人行》是一档时事评论类节目,谈话参与者固定为三人,包括一位主持人和两位嘉宾。主持人的主导性较弱,发言自由度高,本文称之为“交谈”形式的谈话节目;《鲁豫有约》为一档经历分享类节目,谈话参与者一般为两人,主持人的主导性较强,本文称之为“对谈”形式的谈话节目。

本研究采用系统抽样法,分别选取《锵锵三人行》与《鲁豫有约》2014至2016年间各十期节目为样本。*本研究为前导性研究,受课题经费所限,目前选取了20期语料,主要探索该类语料库建设及标注的方法、原则等。抽样标准包括话题的多样性、嘉宾的类型、语料数量的适切性三个方面。话题会对话语内容有直接的影响,保证话题的多样性可以消减谈话内容对话语形式的影响。嘉宾的类型实际代表的是谈话的个人风格和策略习惯,保证嘉宾类型的多样,可以消减个人风格和习惯对会话的影响。

2.2 会话结构体系的构建

本研究该阶段旨在对会话结构进行描写和分析。目前学界对会话结构的分类尚未形成一致的观点。李悦娥、范宏雅[13]在借鉴英语话语分析理论的基础上,提出“阻碍—修正结构、重复结构、打断结构、问与答结构”四大类50余小类的话语结构体系。这一体系具有代表性,其特点是全面而精细,对不同类型的会话具有较好的覆盖性。但对于本研究该体系存在以下不足:(1)子类划分过细,部分子类冗余,例如,问答结构中的“提供型问句”和“接受/拒绝型答句”不出现在谈话节目中;(2)子类的划分标准不一致,层次混杂,如重复结构划分为“纠正性重复”、“练习性重复”、“澄清性重复”等小类,这是依照功能的标准;而打断结构划分为“成功的一次性打断”、“不成功的一次性打断”、“成功的多次性打断”、“不成功的多次性打断”等小类又是依照形式的标准。虽然在两个大类中分别采用不同的标准原则上是可以的,但性质不同的分类不利于会话结构组合关系的分析。

基于以上考虑,本文在李悦娥、范宏雅[13]的话语结构体系上进行了两个方面的改进。一方面,在4大结构的基础上增设了“插入结构”以达到对语料的充分描写。在谈话语料中,谈话人B在谈话人A的话轮中插入“是”、“对对对”以及简短的打趣话语是很常见的,其中一些情况可以归入Roger等[14]提出的附和语(continuer)或评论语(assessment)当中。李悦娥等[13]认为它们不属于言语打断,但未阐明原因。本文认为,从信息传达的角度来说,打断结构中增加了新的信息,而插入结构并不提供新的信息;相应地,两者的语用功能也就不同,打断结构是为了传递或获取实质性的信息内容,而插入结构主要传达会话中“合作”、“认同”、“保持注意力”的交际态度,也涉及会话风格的体现。 最后,在形式方面,插入结构不同于打断结构,它不阻止话轮的进行或致使话轮转换,大多数不会(也不需要)得到交谈对方的回应。

另一方面,本文在会话结构小类的划分中贯彻了语用功能的标准。所有的会话结构形式必定具有一定的功能,例如,表达询问、进行解释、发表评论、加以确认等。只有将会话结构的描写落实到功能上,才能深化对结构组合关系的认识,并进一步分析会话的运作机制。语用功能本质上是开放的,因此不可能穷尽所有的类型。本文采用归纳的方法,分别对五个一级类下的结构按语用功能进行归纳,总结出所有的二级功能类型。二级类吸收了李悦娥、范宏雅[13]体系中的部分类型,包括“澄清性提问”“澄清性回答”“修饰性提问”“感叹性提问”“并行”“附和”,此外的类型由我们根据对语料中会话结构功能的分析归纳而提出。本文构建的会话结构体系共包含五个一级类和16个二级类,见表1:

2.3 会话结构的标注

会话结构的标注包括三部分内容:(1)使用“【结构类名】”标签来标注会话结构的类型;(2)使用“{}”标注会话结构的位置和上下界;(3)标注“自然转换”部分。对于不在本研究会话结构体系中的部分,标注为“自然转换”。标注示例如下:

陈:{【引导性提问】你觉得做武师苦还是当编剧苦,还是当导演苦,还是做演员苦?}

曾:{【跟随性回答】武师是体力的苦……}

陈:{【问询性打断,成功】【澄清性提问】刚才那摔,你自己真摔啊?}

曾:{【澄清性回答】对啊,那个是体力的苦,但是我们踢足球也会摔……}

陈:{【解说性打断,成功】那不一样好像。}

曾:{【自然转换】但是那摔了就赚钱,马上就想到晚上就可以去哪里吃饭、喝酒,就很开心了对不对。那时候没有想说去储钱,做什么,没有,就是天天喝玩乐这样子。} (语料来源:《鲁豫有约》2015-4-25)

3 标注数据分析

对会话结构类型的标注结果进行统计,得到以下数据*会话结构由学生助理按照操作标准进行标注和校对,并由研究人员进行了抽样检查。。

表2 会话结构标注结果

会话结构的数量分布有以下特点:

(1) 五类会话结构在数量上分布不均衡,数量最多的是问答结构,其次是打断结构、插入结构和重复结构,阻碍—修正结构最少;

(2) 两种节目的会话结构数量分布表现出各自的特点:《锵锵三人行》数量上明显较多的是“解说性打断”、“转移性打断”、“插科”、“同意性重复”和“修饰性提问”;《鲁豫有约》数量上明显较多的是“问答结构”中的“澄清性提问/澄清性回答”和“引导性提问/跟随性回答”。从大类上来说,《锵锵三人行》的优势结构是打断结构,而《鲁豫有约》的优势结构是问答结构;

(3) 有的小类结构在两种节目中有明显的不同:《锵锵三人行》中有不少“转移性打断”,而《鲁豫有约》中没有该类型;《鲁豫有约》中的“阻碍”与“修正”的数量差较小,而《锵锵三人行》中的“阻碍”数量远多于“修正”的数量;《锵锵三人行》的插科远多于《鲁豫有约》,且主要发生在主持人话轮,《鲁豫有约》少有的几次插科主要来自于受访者话轮。

会话的形式、性质和交际任务对会话结构的数量分布具有直接的影响。在以对谈节目《鲁豫有约》中,目的是要通过谈话获取和分享嘉宾的经历信息,问答结构作为主要的话语结构发挥作用。问答结构的功能类型很多[14],但在《鲁豫有约》中主要的功能是获取信息,以“引导性提问/跟随性回答”和“澄清性提问/澄清性回答”为主要类型。在以交谈为主要会话形式的《锵锵三人行》中,打断结构多于问答结构。打断一般被定位为“对语言和社会行为规范的违反”[16],但从《锵锵三人行》的语料来看,打断并未对交际任务的完成造成消极作用:在三人交谈型的会话里,交际目的是对相关论题进行讨论,这就需要参与者围绕问题集中地交换观点,随时更新信息,将讨论推向深入。打断结构符合了以上交际要求,因此成为了优势结构,并发挥积极作用。其中又以解说性打断为最多,转移性打断最独特(《鲁豫有约》中没有这一类型)。解说性打断既可以发生在嘉宾之间的话轮中,也可以发生在嘉宾和主持人之间的话轮中,体现了主持人和嘉宾享有相当的话语权势地位,相应地增强了节目的自由度;另一方面,转移性打断基本上出现在主持人话轮中,因为会话的讨论性质,谈话时常发散出去,甚至偏离了话题,主持人使用转移性打断发挥其主导会话的作用,体现了主持人的话语权势优势地位。

4 会话结构组合分析

会话结构在会话序列中互相组合,形成更大的单位,以完成交际任务。Sacks等[17]提出了“毗邻对”(adjacency pairs)概念,并逐渐发展成为研究会话局部结构的基本单位。“毗邻对”(有的也称为“相邻对”)指的是两个谈话者各说一次话所构成的对子,毗邻对的两个部分之间具有言语行为上的关联性。例如,第一部分是“致意”(greeting),那么第二部分也相应的是“致意”。但也有多种对应的情况,比如第一部分是“提问”,第二部分可能得到“回答”,也可能得不到回答,或是遭到拒绝[18]。毗邻对的对应类型,多是研究者通过对话语功能、言语行为的分析,自上而下定义的。谈话节目语料库的标注,可以支持自下而上地考察会话结构的组合关系,以发现真实语言使用中会话结构的组合规律。

本文将一期节目的会话视作一个完整的由若干话轮(t)组成的线性段落(P),顺次对话轮进行会话结构(s)和自然转换(x)进行标注,从而得到会话结构标注段落(P′)。如下所示:

在组合分析的方法方面,经过对比发现Trigram可以有效减少非结构关系组合信息,从而对话语结构体内部关联性进行有效考察。考察结果(频率降序排列的前十个)如下所示。

表3 《锵锵三人行》会话结构组合

续表

序号频率会话结构组合240自然转换—引导性提问—跟随性回答339自然转换—附和—自然转换438引导性提问—跟随性回答—自然转换538澄清性提问—澄清性回答—自然转换635解说性打断—自然转换—解说性打断730自然转换—修饰性提问—自然转换824自然转换—插科—自然转换924问询性打断—澄清性提问—澄清性回答1023自然转换—问询性打断—澄清性提问组合的种数(Type):325组合的总数(Token):1195

表4 《鲁豫有约》会话结构组合

从毗邻对的角度来看,会话结构可以分成两类:问答结构(除修饰性提问和感叹性提问以外)和阻碍修正结构是“毗邻性会话结构”,因为结构的两个部分在定义上具有关联性,前一部分对后一部分具有预测性和一定的强制性。而打断结构、插入结构和重复结构则是“非毗邻性会话结构”。

基于以上的划分来分析会话结构组合可以发现,高频组合以毗邻性结构为主,尤其是“引导性提问—跟随性回答”和“澄清性提问—澄清性回答”组合。《鲁豫有约》中的1、2、3、4型组合,《锵锵三人行》中的2、4、5型组合直接反映了这样的毗邻性组合。《鲁豫有约》中的5、6、7、9型组合则间接反映了这样的毗邻组合。问答是会话中最基本的结构,具有期望得到信息和提供信息的功能[19],是具有明确信息量需求、指令性很强的言语行为。因此在定义上本就具有毗邻对性质的问答结构高频组合在一起。这还体现了谈话节目中对“合作原则”[20]的遵循。大量的引导性提问/引导性回答、澄清性提问/澄清性回答的毗邻出现,说明会话双方有问必答,满足了会话对信息量(量准则)和相关性(关系准则)的要求。

在毗邻性组合之外,还有大量的非毗邻性组合,主要分为三种情况。

一是非毗邻性结构的单独分布,如《锵锵三人行》中高频复现的1、3、6、7、8型组合,《鲁豫有约》中的8、10型组合。显然,两个节目非毗邻性结构的单独分布具有明显的差异性:《锵锵三人行》大量的“解说性打断”“附和”“修饰性提问”和“插科”分布于会话中,反映了会话的自由度高,以辩驳探讨为主,是交谈形式的突出表现;而《鲁豫有约》的非毗邻性结构分布远少于毗邻结构,反映了会话的组织性强,以问答交流为主,是对谈形式的突出表现。

二是非毗邻性结构与毗邻性结构的组合。《锵锵三人行》中的9、10型组合反映了“问询性打断—澄清性提问”这种非毗邻性结构与毗邻性结构的组合。问询性打断是一种带有提问性质的打断结构,而澄清性提问往往发生在打断当中(但不全是),因此两者共现度高(见2.3示例)。

三是毗邻结构之间的特殊组合。有的毗邻对在实际使用中经常出现定义之外的变化,与其他类型构成毗邻性组合,阻碍—修正结构的表现最为明显。在两个节目中,阻碍结构之后以修正结构为主,但此外还有多种其他结构的对应,如引导性提问、解说性打断、修饰性提问、问询性打断、转移性打断、澄清性提问等。这其中有两种情况,一是在同一个话轮中,说话人遇到表达阻碍,而使用引导性提问、修饰性提问等结构来指定发言人、交出话轮,以达到解除阻碍的目的,如:

窦:{……那她要是不冤枉了,那这她也就,【阻碍】}{【引导性提问】这事儿该怎么说呢?}

潘:{【跟随性回答】人性就太复杂了。}(语料来源:《锵锵三人行》2015-9-25)

另一种情况是,说话人A的表达受阻,说话人B使用“解说性打断”、“转移性打断”等方式解除A的阻碍。例如:

许: {……那中国电影业要发展的话,我觉得科幻题材正好恰到其时。所以,我觉得今年科幻片。【阻碍】}

梁: {【转移性打断,成功】对,但是时机到了……}(语料来源:《锵锵三人行》2016-2-14)

此外,还存在结构之间的嵌套[21],如下例所示:

窦:{【引导性提问】能告诉我们多少钱吗?}

翟:{【澄清性提问】这个?}

窦:{【澄清性回答】这个要是拍卖},{【引导性提问】要现在市场上,大概?}

翟:{【跟随性回答】现在就挺好听的了这个价位,过去就是挺凄凉的,我说现在吧,如果这个碗在一般的行家手里,可能会要你250到300万。}(语料来源:《锵锵三人行》2014-6-24)

引导性提问之后并没有出现跟随性回答,而是出现了澄清性问答,进一步明确了问题,再由主持人提出引导性提问,嘉宾做出跟随性回答。

会话结构的组合分析可以发现会话中反复出现的结构模式,这些模式不但反映出谈话节目的形式特点,还有助于进一步分析会话中功能性模块、会话策略的形成,进而更加深入地了解会话的运作机制。这方面的研究还有待深入。

5 总结

本文选择交谈式谈话节目《锵锵三人行》和对谈式谈话节目《鲁豫有约》为语料,建立了一个小型的谈话节目语料库,并构建了包含五大类16小类的会话结构标注体系,对语料进行了会话结构的标注。根据对标注结果的统计发现,会话结构在数量上呈不均衡分布,节目的形式、性质以及交际任务是会话结构分布的主要影响因素。会话结构的组合具有模式性,高频组合是问答毗邻对,此外有大量的非毗邻性组合,包括非毗邻性结构的单独分布、非毗邻性结构与毗邻性结构的组合、毗邻结构之间的特殊组合。

谈话节目语料库的建立和会话结构分析是对话语分析理论的实践。本研究中的谈话节目语料处于初步构建阶段,并以标注和分析会话结构为主。后续的工作将向两个方面深入:一方面扩大语料库的容量,完善和扩展标注体系,改进组合分析方法,并以会话结构为基础开展交谈的言语特征、会话策略等方面的研究;另一方面开展应用研究,利用标注数据开展语用计算、会话自动分析、口语教学[22]及其课程开发的相关研究。

[1] 曾淑娟,刘怡芬.现代汉语口语对话语料库标注系统说明[R]. 台湾:中央研究院语言学研究所筹备处,2002.

[2] Chen, Hao-Jan Howard.Developing a Chinese Spoken Corpus website for Chinese learners, teachers and researchers [C]//Proceedings of International Conference on Corpus Linguistics and Technology Advancement, Hong Kong: The Hong Kong Institute of Education. 2015.

[3] 许家金.青少年汉语口语中话语标记的话语功能研究[M].北京:外语教学与研究出版社,2009.

[4] 应天常.节目主持语用学[M].北京:北京广播学院出版社,2001.

[5] 盛永生.电视谈话节目主持话语的基本话目分析[J].暨南学报(人文科学与社会科学版),2004(04):92-97,140.

[6] 盛永生.电视谈话节目的话回类别与功用[J].修辞学习,2005(02):20-23.

[7] 邱雪玫.试论电视谈话节目主持人的言语互动[J].徐州教育学院学报,2003(02):97-100.

[8] 赵雪.电视访谈节目的语境[J].语言文字应用,2005(S1):75-77.

[9] 邓琪,郭绪文.访谈节目的话语分析[J].重庆大学学报(社会科学版),2004(03):83-85.

[10] 袁伟.关联理论和节目主持人话语建构——从电视谈话节目谈起[J].哈尔滨学院学报,2005(03):102-105.

[11] 代树兰.电视访谈话语研究[M].北京:中国社会科学出版社,2009.

[12] 顾曰国.北京地区现场即席话语语料库取样与代表性问题[C]//中国社会科学院世界经济研究中心.全球化与21世纪首届“中法学术论坛”文集.北京:社会科学文献出版社,2002:484-500.

[13] 李悦娥,范宏雅.话语分析[M].上海:上海外语教育出版社,2002.

[14] 刘虹著.会话结构分析[M].北京:北京大学出版社,2004.

[15] Brown Penelope. How and why are women more polite: Some evidence from a Mayan community [M]. Sally McConnell-Ginet, Ruth Borker& Nelly Furman (Eds.), Women and language in literature and society, Praeger Publisher, 1980:111-136.

[16] Roger D, Bull P, Smith S. The Development of a Comprehensive System for Classifying Interruptions[J]. Journal of Language & Social Psychology, 1988, 7(1):27-34.

[17] Sacks Harvey, Schegloff Emanuel A, and Jefferson Gail. A simplest systematics for the organization of turn-taking for conversation [J]. Language, 1974:696-735.

[18] 何兆熊.新编语用学概要[M].上海:上海外语教育出版社,2000.

[19] 李悦娥.话语中的问与答结构探析[J].外国语(上海外国语大学学报),1998(03):8-12.

[20] Grice, Herbert P. Logic and Conversation [M]. In Peter Cole & Jerry L. Morgan (Eds.), Syntax & Semantics 3: Speech Acts. Acadenfftic Press, 1975: 41-58.

[21] 朱晓亚.现代汉语问答的结构模式系统研究[J].汉语学习,1996(02):48-52.

[22] 王珊,刘锐.汉语高级口语教学研究.第二届国际汉语教学研讨会——IB课程理念与语言教学[R],香港:香港教育大学.2016

The Construction and Analysis of a Chinese Talk Shows Corpus

WANG Shan, LIU Rui

(Department of Chinese Language Studies, The Education University of Hong Kong,Hongkong, China)

The construction of a speech corpus is the foundation of research on oral languages. In this paper, a small-scale corpus is constructed based on the representative talk shows, QiangqiangSanrenxing and LuYuYouyue. An annotation system constituted by 5 primary categories and 16 subtypes is developed to annotate the conversational structures. According to the statistics of conversational structures, there are 309 interrupted structures, 141 inserted structures, 111 repetitive structures, 653/589 question and answer structures, 51/21 obstruction-correction structures, which reflect the unbalanced distribution of the number of conversational structures. The form, nature and communicative tasks of the talk shows are the main influencing factors of the distribution of the conversational structure. In addition, conversational structures show certain patterns, and therefore trigram analysis is carried out to explore the combinations. It is found that the highest frequency combination in the corpus is the question-answer adjacency pair, in addition to a large number of contingency combinations.The combination patterns of conversation structures not only reflect the style of the talk shows, but also help to analyze the functional modules in the conversation, the formation of conversation strategies, and thus help us more deeply understand the operational mechanisms of the conversation.

talk shows; conversational structures; combination patterns

王珊(1982—),通信作者,博士,讲师,主要研究领域为词汇语义学、应用语言学、语料库语言学。E-mail:wangshanstar@gmail.com.刘锐(1990—),硕士,研究助理,主要研究领域为汉语词汇学、应用语言学。E-mail:liuruioscar@hotmail.com

1003-0077(2016)06-0140-07

2016-09-27 定稿日期: 2016-10-17

香港教育大学中国语言学系资助(2015-16-CHL-06)

TP391

A

猜你喜欢

引导性会话语料
引导性反馈在护理高仿真模拟教学中的运用效果评价研究
基于归一化点向互信息的低资源平行语料过滤方法*
引导性反馈在护理模拟教学中的应用现状
QQ和微信会话话轮及话轮转换特点浅析
基于任务驱动法的机械制图教学研究
基于集群节点间即时拷贝的会话同步技术研究①
《苗防备览》中的湘西语料
国内外语用学实证研究比较:语料类型与收集方法
异种语料融合方法: 基于统计的中文词法分析应用
年龄大小的种种说法