日语学习类中文期刊论文标题特征的历时计量分析
2022-04-07钟勇
钟勇
(南京航空航天大学,江苏南京 211106)
正如“秧好一半谷,题好一半文”所说,标题是学术论文的重要组成部分,是吸引读者(科研工作者、期刊编辑等)的第一要素,经常被称为论文的“眼睛”和“窗口”。一个科学、合理的标题作用良多,可以明确论文类型,交代研究问题,展示主要内容,说明研究方法,强调创新之处等。通过阅读标题,读者能够迅速把握当前论文的基本信息,对其做出初步的价值判断,进而决定是否继续阅读全文,是否送给专家评审等。由于论文标题的重要性,产生了不少关于中文期刊论文标题的计量分析,但目前针对语言类期刊论文标题的较为详细的计量分析研究还较为缺乏。鉴于此,该文对日语学习类中文期刊《日语学习与研究》20年(1999—2019)内所刊论文标题的表层形态特征和内容主题特征进行较为全面的历时计量分析,以期进一步推动语言类期刊论文标题计量分析的发展,并为日语界科研工作者拟定高质量论文标题及把握日语研究动态提供一些参考。
1 文献回顾
进入21 世纪后,国内有关期刊论文中文标题的计量分析日益受到关注。现有研究可分为以下3 类:(1)侧重考察标题表层形态特征的研究。例如,化柏林对图书情报学核心期刊论文标题的长度、 句法结构、所含关键词、动词分布、题首词和题尾词等进行了统计分析[1];何岚湘对比分析了同一学科的中英文期刊论文标题的句法结构的类型及使用频率[2];林佳瑜和甄长慧等考察了中文论文标题的类型、 长度等和论文的下载、引用之间的关系[3-4];纪雪梅和王芳,及涂志芳统计分析了论文标题中“基于” 一词的占比、学科差异、对象词、位置分布等[5-6];叶新明则以1997 至2016年的图书馆学期刊论文标题为例,通过词频统计分析了题尾词的趋同化特征[7]。(2)主要探讨标题内容主题特征的研究。譬如,王建芳和齐向华对比分析了自然科学与社会科学领域中部分中文核心期刊论文标题的内容信息量与论文长度的相关性[8];汤建民和袁良平在2007—2009年的系列研究中运用词频统计法考察了高等教育研究、 科学学研究、自然辩证法研究、翻译研究等各类核心期刊的论文标题,揭示了相关领域研究的现状、热点和发展动向[9-14];陈国明基于特定主题论文标题的词频分析探讨了我国30年来中小学教师培训研究的发展轨迹[15]。此外,邱苇和陈永斌、张玲分别运用词频统计法考察了美术和档案学核心期刊论文的标题,展现了相关领域研究的现状和热点[16-17]。(3)综合性研究。例如,程向莉和夏艳对比分析了国内外4 本学术期刊上1 081 个外语教学研究论文标题的表层结构要素(包括题长、标点和句法结构等)和语用功能[18]。
由上可知,以往的中文论文标题计量分析成果较为丰富,已涉及诸多学科和研究领域,但综合考察标题形态和主题特征的较为全面的研究还不多,且针对语言类期刊论文标题的计量分析十分有限。此外,在研究方法上,以往研究大多仅依赖频次、百分比、均值等较为基本的描述性统计指标,卡方检验、Mann-Whitney U 检验等推断性统计方法的运用还较为少见。基于此现状,该文以日语学习类中文期刊《日语学习与研究》20年 (分为前十年和后十年)中文论文标题为数据,综合运用各类统计方法对日语类期刊论文标题的表层形态和内容主题特征进行较为全面的历时计量分析。具体研究问题为:(1)与前十年相比,后十年日语类期刊论文标题在副标题添加、长度、“的”的使用、题首词和题尾词类别等表层形态方面有何特征与变化? (2)与前十年相比,后十年日语学习类中文期刊论文标题在内容主题方面有何特征与变化?
2 数据来源及计量分析方法
该文数据来自国内权威期刊《日语学习与研究》1999年4月26日—2019年4月25日(共二十年)刊登的所有中文论文标题。《日语学习与研究》是由中华人民共和国教育部主管,对外经济贸易大学主办的兼具专业性、 权威性和代表性的日语类综合学术刊物,是日语界唯一的CSSCI(扩展版)来源期刊。我们通过中国知网的“高级检索” 功能及人工清理(主要去除了课题立项一览、企业名录、赛事通知、新版书目、日文标题等无效数据)从该杂志近二十年论文中收集到1 778 个有效中文标题,如“宫崎骏动画中意象体现的日本民族审美特质”“日语‘ていた’和汉语‘着’的比较研究”“语法教学中图示法的思考与设计”等。为了考察这些标题的历时变化情况,按照“1999年4月26日—2009年4月25日(前十年)”和 “2009年4月26日—2019年4月25日 (后十年)” 两个等长时段建成了两个Excel 标题总库,即“1999—2009 标题库 (含820 个标题)” 和“2009—2019 标题库(含958 个标题)”。因研究需要,前者进一步拆分为 “1999—2009 主标题分库” 和“1999—2009 副标题分库”;后者拆分为“2009—2019 主标题分库”和“2009—2019 副标题分库”。
关于计量分析方法,我们首先通过Excel 软件计算了4 个标题分库中主、 副标题的数量及副标题添加率。然后使用R 软件编程统计了各标题分库中的标题长度(即字符数),并通过Excel 软件(检索含“的”的单元格数量)计算了各标题分库中含结构助词“的”的标题数量。之后,为了分析题首、尾词的词频及标题研究主题,我们在R 软件中使用“jieba 分词软件包”对所有标题实施了分词处理。具体流程如下:(1)构建自定义词库。为了提高分词准确性,我们充分考虑到本文标题数据库的语言特性,综合使用搜狗词库中的“语言学术语库”“日文常见人名库”及参考日本文学教材自制的“日本经典文学作品库”构建了一个自定义词库(共7 312 个词)。(2)替换日语词句。原始标题数据中存在不少jieba 分词器无法识别,但语法功能大致相当于中文名词的日语词句。为了进一步提高分词的准确性,我们把这些词句全部替换为“日特名”(即由日语替换而来的特殊名词)这个实际不存在的中文名词,并把该词添加到自定义词库当中。譬如,标题“从动词的分类看‘ながら’与‘て’的区别”替换后变成了“从动词的分类看‘日特名’与‘日特名’的区别”。(3)基于自定义词库进行标题分词。分词结束后,通过R 软件编程分别获取了主、副标题的题首、尾词频信息。一方面,为了考察研究主题,还统计了两个标题总库中所有名词的词频信息。另一方面,我们根据分析需求使用R 软件对相关数据实施了描述性统计分析、卡方检验、Mann-Whitney U 检验等。
3 日语学习类中文期刊论文标题的表层形态特征及历时变化
3.1 副标题添加
论文副标题具有对主标题进行辅助和补充的功能[19]。副标题的合理使用可以有效增加标题的信息量和清晰度。该文构建的两个标题总库(即“1999—2009 标题库”和“2009—2019 标题库”)中均有许多带副标题的复合式标题,如“中日语言日常用语中的‘生’与‘死’——试探闽南文化与日本文化的差异”“跨文化交际能力现状实证研究——聚焦于日语专业生的‘认知’和‘态度’层面”“谷崎润一郎文学的‘非东方主义’ 解读——以《苏州纪行》《秦淮之夜》《西湖之月》为中心”等。两库中副标题添加的整体情况如表1 所示。
表1 两标题总库中的副标题添加情况
由表1 可知,1999—2009 标题库的复合式标题为209 个,占比25.5%;2009—2019 标题库的复合式标题为326 个,占比34.0%。也就是说,与前十年相比,后十年标题中的副标题添加率增加了8.5%。进一步的卡方检验结果显示,两库副标题添加率具有显著性差异(χ2=14.92,P<0.05)。也就是说,后十年论文标题中的副标题添加率明显上升。
3.2 标题长度
一般说来,论文标题不宜过长或过短,日语学习类中文期刊论文标题也不例外。4 个标题分库中主、副标题长度(字符数)的描述性统计分析结果如表2所示。
表2 论文标题长度的描述性统计分析结果
具体说来,1999—2009 主标题分库中的最短标题仅含2 个字符(如“翻译”),最长标题多达34 个字符(如“论‘ずいぶん’‘だいぶ’‘なかなか’‘相当’‘かなり’在使用上的异同”);2009—2019 主标题分库中的最短标题是4 个字符(如“图像日本”),最长标题有33 个字符(如“2009年全国硕士研究生入学统一考试日语试卷基础知识及翻译试题解析”)。另一方面,1999—2009 副标题分库中的最短标题仅含3 个字符(如“なそけ”),最长标题是32 个字符(如“以‘(Nに)V-てほしい’与‘Nが(は)V-てほしい’的区别为主”);2009—2019 副标题分库中的最短标题为5 个字符(如“东文学堂考”),最长标题为34 个字符(如“以「トコロガ」「トコロヲ」「トコロへ」「トコロニ」「トコロデ」为对象”)。然后,在主标题方面,1999—2009 分库的均值比2009—2019 分库小1.8个字符,即主标题长度在后十年有所增加。在副标题方面,1999—2009 分库的均值比2009—2019 分库大0.06 个字符,即副标题长度在后十年有所减少。进一步的Mann-Whitney U 检验 (标题长度为离散数据,故采用该非参数检验)表明,两个时段的主标题长度差异显著(W=295 934,P<0.05),但副标题长度无显著性差异(W=33 954,P>0.05)。这说明,后十年论文的主标题长度明显变长,但副标题长度变化不大。
3.3 标题中“的”的使用
由于中文句子中的结构助词“的”许多时候可加可不加,在拟定日语学习类中文期刊论文标题时,我们会纠结到底加“的”为好,还是不加“的”为好。若加,则句法结构会更清晰,但也可能略显冗长和不自然;若不加,则标题会更简洁,但有时也会导致读者难以准确理解各词语间的具体逻辑关系。为给该问题带来一些启示,我们统计了各标题分库主、副标题中结构助词“的”的使用情况(详情见表3)。
表3 论文标题中“的”的使用情况
由表3 可知,1999—2009 和2009—2019 主标题分库中含“的”标题占比分别为76.1%和76.9%,增量为0.8%。也就是说,与前十年相比,后十年含“的”的主标题比例稍有增加。另一方面,1999—2009和2009—2019 副标题分库中含“的”标题占比分别为53.1%和47.5%,增量为-5.6%。即后十年含“的”的副标题比例有所减少。随后的卡方检验结果表明,两主标题分库(χ2=0.13,P>0.05)和两副标题分库(χ2=1.36,P>0.05)中含“的”标题的占比均无显著性差异。也就是说,后十年论文主、 副标题中结构助词“的”的使用率无明显变化。
3.4 题首词和题尾词类别
题首、 尾词的分析有助于细致了解论文标题结构。我们利用词频前50 个的词分别归纳出了主标题和副标题分库中题首、尾词的主要类别(主要选取了总词数与相关题首词或题尾词总数的比率大于10%的所有类别)。首先,主标题题首、尾词的主要类别如表4 所示。
表4 主标题题首、尾词主要类别
由表中题首词主要类别可知,前十年和后十年主标题的主要头部结构均有3 类。与前十年相比,后十年以“论析类词”开头的结构已不是主标题的主要头部结构,但以“地域类词”开头的结构新增为主要头部结构。针对两分库的共有题首词类别实施卡方检验时,在“对象、范围提示类词”占比上出现了显著性差异(χ2=6.77,P<0.05),但在“日、汉语类词”占比上无显著性差异(χ2=0.54,P>0.05)。这说明,后十年以“对象、范围提示类词”开头的主标题比例明显降低,但以“日、汉语类词”开头的主标题比例保持稳定。另一方面,由题尾词主要类别可知,前十年和后十年的主标题主要尾部结构均集中在以“论析、探考类词”结尾的结构上。卡方检验结果显示,二者在“论析、 探考类词” 的占比上差异显著 (χ2=36.88,P<0.05),即后十年以“论析、探考类词”结尾的主标题比例明显增加。然后,副标题题首、尾词的主要类别如表5 所示。
表5 副标题题首、尾词主要类别
由题首词主要类别可知,前十年副标题的主要头部结构比后十年多了以“论析、探考类词”开头的结构。针对共有题首词类别的卡方检验结果表明,二者在“对象、范围提示类词”的占比上差异显著(χ2=10.45,P<0.05)。也就是说,后十年以“对象、范围提示类词”开头的副标题比例明显增加。另一方面,由题尾词类别可知,前十年和后十年副标题主要尾部结构均集中在以“对象、范围限定类词”和“论析、探考类词” 结尾的结构上。进一步的卡方检验结果显示,二者在“对象、范围限定类词”(χ2=5.71,P<0.05)和“论析、探考类词”(χ2=10.52,P<0.05)的占比上均出现了显著性差异,说明后十年以“对象、范围限定类词”和“论析、探考类词”结尾的副标题比例均明显升高。
4 日语学习类中文期刊论文标题的内容主题特征及历时变化
据调查,95%以上的科技文献及大多数其他文献的标题都能很好地反映文章主题[20]。并且,针对相同主题的研究,作者往往使用较为一致的概念,若某主题词在相关领域文献中出现的频率很高,则说明该词表征的主题是该研究领域的热点。因此,我们可以通过考察论文标题中的名词性高频主题词来把握相关研究领域的内容主题和热点。
经统计,1999—2009 标题库和2009—2019 标题库中的名词总数分别为3 771 词和5 118 词,基于词频前100 个的名词性主题词归纳出的主要内容主题类别见表6。由表可知,前十年和后十年的主要内容主题均包括“语言类研究”“教育类研究”“文学类研究”“社会文化类研究”和“翻译类研究”5 类,且都是语言类研究的比例远远高于其他类别。卡方检验结果显示,二者在 “语言类研究”(χ2=6.23,P<0.05)、“教育类研究”(χ2=22.66,P<0.05)和“社会文化类研究”(χ2=12.01,P<0.05)的占比上差异显著,但在“文学类研究”(χ2=0.08,P>0.05)和“翻译类研究”(χ2=0.16,P>0.05)的占比上差异不显著。这说明,后十年日语类期刊论文中语言类和社会文化类研究的比例明显下降,教育类研究的比例明显上升,文学类和翻译类研究的比例较为稳定。
为了更加细致地探析前十年和后十年的具体热点主题变化情况,我们基于表6 整理出了两标题总库中词频前10 的主题词,并计算了各词占名词总数的比率(详情见表7)。
表6 两标题总库中的主要内容主题类别
表7 两标题总库中词频前10 的主题词
由表可知,无论是前十年还是后十年,围绕“日语”的研究一直是最热的主题,该结果很好地反映了《日语学习与研究》杂志的核心关注点。其次,两库前10 个主题词中有7 个(即70%,参考下划线词)完全相同,剩余的词也均和这些词有明显关联性(譬如,1999—2009 标题库中剩余的 “语言”“助词”“词汇”等词就与共有主题词“日语”“汉语”“动词”等明显相关)。针对7 个共有主题词占比进行卡方检验时,仅在“文化”上出现了显著性差异(χ2= 4.25,P<0.05)。由此可见,与前十年相比,后十年的具体热点主题整体上变化不大,相对比较重要的变化有以下两点:第一,学习者、 专业和语义等研究主题的热度相对上升,而宏观性的语言、词汇及较为具体的助词等研究主题的热度相对下降;第二,文化研究有较为明显的降温趋势。
5 结语
论文标题“居文之首,勾文之要”,值得再三推敲和深入研究。该文从历时角度对日语学习类综合学术期刊《日语学习与研究》20年(1999—2019)中文论文标题进行了计量分析,获得的主要结论有:(1)在表层形态方面,与前十年相比,后十年论文标题的副标题添加率明显上升,主标题显著增长,副标题长度基本稳定,结构助词“的”的使用率变化不大,头、尾部结构与之前大同小异;(2)在内容主题方面,与前十年相比,后十年标题的内容主题类别和具体热点主题均变化不大,主要变化体现为语言类和社会文化类研究的比例明显下降,教育类研究的比例明显上升,同时语言、词汇、助词及文化等具体主题的热度相对下降,学习者、专业和语义等具体主题的热度相对上升。今后,可通过扩展论文标题语料的时间跨度或增加期刊类型和数量实施更为宏大的历时研究,也可运用质性研究方法深入探究日语类期刊论文标题特征历时变化的背景和原因。