《阿Q正传》的自然标注资源及其功用考察
2019-11-25
(湖北大学 文学院,湖北 武汉 430062)
一、文本自然标注的内涵及本文的研究目的
文本标注(tagging)是自然语言机器处理(NLP)和自然语言人脑处理的基础和前提。自然语言的文本标注一般分为自然标注、人工标注和(计算机)自动标注三类。人工和(计算机)自动标注所产生的标注资源主要应用于自然语言的机器处理,而且很早就进行了广泛的标注实践,与此相反,文本的自然标注及自然标注资源所具有的NLP价值直到近些年才引起学界的重视。清华大学孙茂松教授最早于2010年提出了“基于极大规模自然标注语料库的自然语言处理”思想,他立足于互联网自然标注资源进行自然语言处理,初步阐述了自然标注资源的定义、基本类型、基于自然标注资源的计算及方法论(1)孙茂松.基于互联网自然标注资源的自然语言处理[J].中文信息学报,2011,25(6):26-32.。2013年第一届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2013)与第十二届全国计算语言学学术会议(CCL2013)同时召开,大大推进了文本自然标注及其标注资源在NLP上的应用。这届会议上,学者们普遍认可“自然标注”的基本内涵是指由互联网用户根据其自身目的(而不是出于自然语言处理研究的目的)对各种互联网资源进行的“不自觉”的手工标注。计算语言学家们可以将这些标注自觉地和系统性地应用在自然语言处理的各种研究中。正如孙茂松所言,自然标注就是互联网用户在无意中为自然语言处理研究的各种资源所作的一定程度的义务标注,比如网页上的“空格”“标点符号”和“句子开头或结尾”就是所谓的“自然标注”,它能“透露”给我们不少关于词汇的信息。孙茂松认为用户在无意中为自然语言处理研究的各种资源作了一定程度的义务“标注”——是自然标注的说明性含义,并指出自然标注有显式和隐式两种基本类型(2)孙茂松.基于互联网自然标注资源的自然语言处理[J].中文信息学报,2011,25(6):27.。李志义、沈之锐也将自然标注定义为:用户在无意中为语言的处理和结构的识别作的一定程度的标注,用户本人并没有意识到这一点;饶高琦、修驰、荀恩东赞同自然标注是语料库中的自然存在,而不是专家的外生输入,并进一步指出自然标注的资源体现了作者的意志和作者使用语言的规律模式,部分地实现了语言学知识形式化的挑战(3)见:李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859;饶高琦,修驰,荀恩东.语料库自然标注信息与中文分词应用研究(英文)[J].北京大学学报:自然科学版,2013,49(1):140-146.。
文本标注是一种对文本语言数据进行识别、选择和归类的工作,为文本语言添加解释性、说明性、提示性的信息。文本语言标注既能将语言中隐藏的意义显式地表达出来,也能按照不同的使用需求对语言数据进行标准化和模式化处理,有助于将自然语言转换为易于机器和人脑理解的数据信息。
语言人工标注和计算机自动标注都需要一定的主体通过对语言知识的运用对语言进行信息分类,都是有意识、自觉地为文本的NLP服务,都是面向机器的行为。文本的自然标注尽管也是一定的主体通过对语言知识的运用对语言进行信息分类,但是这种行为不是“有意识、自觉”地为文本的NLP服务,而是有意识、自觉地为文本的人脑理解服务,是为了人的阅读理解服务的行为。
基于学界已有的看法,我们认为自然标注是人际交往的潜意识行为,在文本语言中主要体现为语言符号本身所蕴含的背景信息或语言符号之间相互解释的现象,在语言信息生成和理解上具有排他性,有助于语言信息交际的准确和高效。文本语言的自然标注是指语言符号本身所蕴含的背景信息而不是词语本身的意义所给予的信息。因为词语本身意义指的是词义中的基本义或常用义,而词的基本义或常用义是满足最基础的信息交流的必要条件,不能纳入自然标注的范围之中。而词语在长期的使用过程中会与某些词形成固定的搭配,使人看到其中一个词自然地联想到另外一个词,这是我们说的词语蕴含的背景信息的一个方面。另一方面,某些词有很强的示现感,使人一见到这个词就能联想到词所指代的具体事物或文本故事发生的时间、文体等等信息。词语之间的相互解释是自然标注的典型特征,既能使语义表达更加清楚,也是语言经济性的体现。典型的例子是同位短语,同位短语的不同词项指代的是相同的事物,从不同的角度来称呼同一事物,实际上就是对同一事物的不同解释。排他性说明的是自然标注从词义上来说应该是单义的,在某个场合词语指代了这种事物,就不能表示另外一种事物。如果某个词语的表义不清晰则不能称之为自然标注。
我们知道,电子版文献的网页相当于纸版文献的书页,互联网就是一部大书,也就是一个巨大的语料库。受互联网用户有关网页文本自然标注现象的启发,我们以《阿Q正传》的作者鲁迅对该文学作品的文本自然标注为研究对象,考察作者对文本语言进行的自然标注状况,以及这些自然标注资源在文本建构(生成)和解构(理解)上的功能,同时也对文本的NLP提供可资借鉴的参考。
二、文本自然标注的抽取方法及其资源状况
《阿Q正传》是鲁迅1921年12月创作的著名中篇小说,共分9章,21 261个字(含汉字、英文字母和标点符号)。本文抽取《阿Q正传》文本自然标注的方法例释如下。我们看下面的语料:
(1)因为文体卑下,是“引车卖浆者流”所用的话,所以不敢僭越,便从不入三教九流的小说家所谓“闲话休提,言归正传”这一句套话里,取出“正传”两个字来,作为名目。
(2)那是赵太爷的儿子进了秀才的时候,锣声镗镗的报到村里来,阿Q正喝了两碗黄酒,便手舞足蹈地说,这于他也很光彩。
(3)吴妈此后倘有不测,惟阿Q是问。
(4)我也曾问过赵太爷的儿子茂才先生,谁料博雅如此公,竟也茫然。
(5)他说不出的新鲜而且高兴,烛火像元夜似的闪闪地跳,他的思想也迸跳起来了。
(6)……也很有排斥异端——如小尼姑及假洋鬼子之类——的正气。
(7)…王胡,又癞又胡,别人都叫他王癞胡……
(8)据阿Q说,他是在举人老爷家里帮忙。
例(1)中,“因为……所以”是篇章关联词,标注的是句间因果关系。“这一句套话”是对“闲话休提,言归正传”这句话的语义定性——套话。例(2)中,“那是(……的)时候”标明了代词“那”的语义所指是“时候(时间)”概念。“的时候”标明“赵太爷的儿子进了秀才”由“事件”转为“时间”。“两碗黄酒”是数量名结构,具有互相标注的性质,量词前是数词,数词后是量词,名词前是数量词。例(3)“吴妈”这个词的形式“姓+亲属称谓词”标注了“吴妈”是一个社会称谓词,因为一个人在称自己的母亲时,不会冠上姓。“惟阿Q是问”中的“惟……是……”结构是宾语前置的标志,标记“问”和“阿Q”是动宾关系。例(4)中的“赵太爷的儿子茂才先生”是同位短语,同位短语两项指代的是相同的人,前项“赵太爷的儿子”标明了“茂才先生”的身份,后项“茂才先生”标明了“赵太爷的儿子”的具体所指。同时“赵太爷”和“茂才先生”也是自然标注。例(5)中“像……似的”是比喻格的标记词。例(6)中的“之类”标注的是“列举未尽”,也标明“小尼姑”“假洋鬼子”具有某种相同的属性。例(7)中的“别人都叫他王癞胡”标明“王癞胡”是他人给“王胡”起的绰号。“他”和“王癞胡”同指。例(8)中的“据……说”,标明了相关信息的来源。
基于文本自然标注的基本内涵和上述基本的操作方法,我们对《阿Q正传》文本语言的自然标注资源状况进行了穷尽性考察。具体情况如表1所示。
表1《阿Q正传》的自然标注资源状况
续表1
标注类别标注词语示例标注格式标注内容标注的频数句间关系标注(502次)但A但B转折179于是A于是B顺承110因为…所以因为A所以B因果76…的时候A的时候+B时间,23语旨23并且A并且B并列21倘倘A+B假设18不但…而且不但A而且B递进15或者A或者B选择14据…说据A说+B来源8除了…之外除了A之外+B排除7总而言之A+总而言之+B总括5为了为了A+B目的1每逢…的时候每逢A的时候+B时间,1语旨1词间关系标注(256次)赵太爷姓A+亲属称谓B语旨68们A+们语旨68祠/庵A+祠/庵语旨27赵家/府姓A+家语旨24党A+党语旨22老把总(A)+职业称谓B语旨21儿子(A称B)儿子语旨13者A者语旨6老Q老+称谓A语旨<对A,尊敬/情深>4这个…这个…指示代词A…语旨2辈A+辈语旨1
关于表1,需要作如下的说明:
1.标点符号也是文本自然标注的类别和重要资源,《阿Q正传》一共有标点符号2 709个。但是由于其生来就是为标注而存在的,标注功能显而易见,所以本表暂不涉及此类资源。
2.文本自然标注本质上都是为包括句法语义和语用义在内的语义服务的。根据自然标注的语义范围,我们把标注分为“句间关系标注、句内关系标注、词间关系标注”三类。句间关系标注是指对篇章级句间关系进行的语义关联、逻辑语义计算之类的篇章语义标注。此类标注频数为502次,占全部2 517次频数的19.94%。句内关系标注是指对句子级的短语结构进行的句法语义标注。此类标注频数为1 759次,占比69.88%。词间关系标注是指对语法关系较少的邻现组合的词语进行的词汇语义标注。此类标注频数为256次,占比10.17%。
3.《阿Q正传》全文有18 552个汉字(含英文字母)和2 709个标点符号,有2 517次汉字性质的自然标注。据此可得,该小说文本汉字性质的自然标注频率为7.37字/次(18 552/2 517),也就是说,每7.37个汉字就有一次自然标注。如果把标点符号性质的标注也计算进来,那么《阿Q正传》的自然标注频率为4.06字符/次[(18 552+2 709)/(2 709+2 517)],也即每4.34个字符就有一次自然标注。可见,该小说文本的自然标注频率还是比较高的。
4.表1中相关符号和公式的内涵是:<>内的词项有前后两项,用“,”隔开或者用“=、≠”关联,前后两项连起来表示一条标注的知识。<>外的词项有两类,一类是表示句内和词间关系的“语旨(语义知识)”,是指尖括号内前项的“语旨”是后项;一类是表示句间关系的“选择、转折、总括、时间”等词语,是指尖括号内前后两项之间在篇章句间关系上具有该词语所指的关系。尖括号“<>”及其内外的词语联合起来构成一个结构式,这个结构式表示一个完整的标注实例及其标注内容。例如“时间”就是一个标注实例,其标注内容是指:事件B发生的时间是A。“转折”也是一个标注实例,其标注的内容是:A、B之间是转折关系。“语旨”也是一个标注实例,其标注内容是:A家是名门望族。
三、文本自然标注的功用
自然语言的自然标注是语言事实的一部分。自然标注是人-际交际的潜意识行为。人工/自动标注是人-机交际的有意识行为。文本的自然标注资源,在人际交互、人机交互方面都有重要作用,本文从语法、语义、语用和自然语言处理(NLP)等方面例释性简要说明其功用。
1.自然标注在语法上的功用。为了语义和语用方面的需要,有时候需要在语法上进行适当的标注,以便更好地进行语义和语用表达。我们知道,用结构助词“之”嵌在主谓结构中间,从而取消句子独立性,是古汉语特有的一种自然标注性质的语法现象。这使得本来可以独立成句的话不独立,变得语意未尽。例如,在句子“师道之不传也久矣”中,“之”取消了主谓结构“师道不传”的独立性,让这个主谓结构降级为句子的主语成分,最终使得“主+谓+补”结构的句子“师道不传也久矣”变成“主+谓”结构的句子“师道的不传也久矣”。再比如“惟……是……”结构也具有自然标注功能,这能让宾语提前获得强调意义。
2.自然标注在语义上的功用。文本自然标注主要体现在语义方面,这些自然标注能够使语义表达更精细。文本自然标注使自然语言的表义系统更加完善,可以大大增强语言的表情达意功能,有助于更好地生成和理解文本。例如:利用网页URL规则对网页进行类聚,但随着Ajax技术的发展,动态URL的不断流行,这种方法的准确性在下降。此例中“规则、技术、方法”是“URL、Ajax、类聚”的自然标注,有了“规则、技术、方法”这三个自然标注词,我们很容易知道“URL、Ajax、类聚”分别是一种规则、技术和方法,这就使得整个句义表达明确精细,易于理解(4)见:李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859.。
3.自然标注在语用上的功用。文本自然标注在语用方面的功能主要体现在语句言外之意、句间关系、语体、修辞特征等的标注。这不仅有助于文本语义的建构和理解,而且有助于形成独特的文本作者的用语特征。饶高琦、修驰、荀恩东等人认为文本这种自然标注体现了作者的意志和作者使用语言的规律模式(5)饶高琦,修驰,荀恩东.语料库自然标注信息与中文分词应用研究(英文)[J].北京大学学报:自然科学版,2013,49(1):141.。通过对《阿Q正传》中自然标注的整理,我们发现了许多“而立之年、求食之道、不朽之人”等用“之”连接定语和中心语的短语以及大量的“文童、秀才、翰林、知县大老爷”等社会称谓词。这说明作者在语言使用上有仿古特征,在语义语用上有“批古讽古”之用意。另外,笔者将《阿Q正传》与同时代女作家张爱玲的《琉璃瓦》进行对比,发现鲁迅善于使用篇章关联词来增强文章的形式流畅度。因为篇章关联词表明句间关系,具有连接篇章、转移推进话题的作用,有助于篇章结构的形式建构。
4.自然标注在自然语言处理(NLP)上的功用。例如,文本中的“空格”“标点符号”和“句子开头或结尾”就是所谓的“自然标注”,这能“透露”出很多的词汇信息。网文标签也是一种典型的“自然标注”,网文作者可以自由地为自己写作的文章添加任意的“标签”,以表达某种意图或心情。这能“透漏”出作者很多的情感和网文文体信息。本文的参考文献对自然标注在NLP上的功用已有很多阐释,此不赘述。
5.自然标注研究有助于揭示语言符号系统的运作规律和机制,论证语言是一个自我标注的符号系统。
四、结 语
本文考察发现,《阿Q正传》中的文本自然标注资源是比较丰富的。在标注的类别上,“句间关系、句内关系、词间关系”方面都有体现,其中句内关系标注占比最高,其次是句间关系和词间关系标注。在标注的频率上,平均每7.37个汉字有一次汉字性质的自然标注,平均每4.06个字符有一次综合(汉字和标点符号)性质的自然标注。
我们知道,在接受理论(Reception Aesthetic)视角下,文本是以文字符号的形式储存着多种多样审美信息的硬载体,通过这个硬载体,作者传递自己想要传递的信息,读者吸收自己能够吸收的信息。问题是,很多时候作者传递的信息和读者吸收的信息并非完全一致,这种不一致既体现了文本审美信息巨大张力,也体现了作者和读者之间通过文本传递信息的阻力。为了减小这种阻力,作者会自觉或不自觉在文本中进行一些标注,这种标注对NLP来说是无意识的,是作者使用自然语言进行自然表达的一种下意识行为,这种标注就是自然标注现象。系统考察文本的自然标注资源,有助于从新的角度来把握自然语言这个符号系统的运作规律和运作机制,以便更好地接受文本信息,最终完成文学文本向文学作品的根本性转变。