APP下载

面向融合出版前沿主题发现的学术论文未来工作句挖掘研究

2024-01-29谢林蕾向熠章成志

情报工程 2023年5期
关键词:类别语料库研究者

谢林蕾 向熠 章成志,2

1. 南京理工大学经济管理学院信息管理系 南京 210094

2. 富媒体数字出版内容组织与知识服务重点实验室 北京 100038

引言

近年来,随着数字化技术的快速发展,传统出版业愈发受到数字出版的冲击,它们开始主动寻求与数字出版的“融合”[1]。在此背景下,“融合出版”模式应运而生。作为一种新兴的出版模式,融合出版可实现传统出版与数字出版的共赢。借助互联网等技术传播快、成本低、影响力大的优势[2],融合出版可改善传统出版内容有限、发行渠道单一、出版周期较长且更新较慢的缺点[3-4],更好地促进知识传播。自2014 年以来,融合出版开始引起学者的关注。之后,关于融合出版的相关研究文献数量不断增长。根据关键词知网节的统计结果显示,知网文献库中每年发表的中文文献数量从2017 年前的不足10 篇已增长到现今的100 篇以上,2022 年相关文献数量已达125 篇①检索日期为2023 年8 月16 日。面对融合出版领域科技文献数量爆炸式增长的现象,前沿研究愈发表现出其必要性。然而,如何对研究前沿进行更为精准的定位是科研工作者在科研选题时经常面临的问题。未来研究能够尽早捕捉研究领域未来的新兴与热点话题,帮助科研人员确定研究领域与对象,有针对性地开展研究。

学者通常在学术论文最后提出论文的未来研究工作展望,表明今后进一步的研究工作方向。本文将论文中描述未来研究工作的句子称为“未来工作句”。系统性梳理和归纳特定领域的未来工作句,可以辅助我们更好地预测该领域的未来发展趋势,为科研选题等提供有价值的参考。

本文以融合出版领域为研究对象,从该领域的学术论文中抽取未来工作句并进行分类,构建未来工作句识别与分类语料库,并在此基础上训练机器学习模型从而实现未来工作句的自动识别。另外,本文基于未来工作句分类语料库对不同类别进行分析,深入探究该领域的发展状况。该文研究可为融合出版领域未来发展提供一定的借鉴。

1 相关研究概述

与本文相关的研究包括融合出版研究和未来工作句研究,本节从这两个角度对相关工作进行概述。

1.1 融合出版研究概述

国内对“融合出版”的针对性研究要追溯到2014 年[5]。曹继东[5]提出,“融合出版”是在“媒介融合”学术语境下,顺应中国出版融合发展趋势,基于数字化技术和互联网思维产生的新兴出版现象,是解决传统出版和数字出版融合发展问题的新兴出版范式。

此前,国内在数字技术融合与出版创新这一领域的研究对象主要是媒介融合与出版融合。媒介融合(Media Convergence) 的概念源于美国,1983 年美国马萨诸塞州理工大学的浦尔教授[6]在其《自由的科技》一书首次正式提出媒介融合的概念。2005 年,媒介融合的概念经蔡雯教授引入到国内。在她发表的有关“媒介融合”与“融合媒介”的文章中,引入了美国新闻学会媒介研究中心主任[7]对“融合媒介”的定义——印刷的、音频的、视频的、互动性数字媒体组织之间的战略的、操作的、文化的联盟。然而,媒介融合与融合出版存在较大差异。媒介融合的研究主要侧重在新闻传媒业和电信业等的融合,较少涉及书刊出版业[8]。在该思想启发下,从出版的视角出发,出版业也被指出有探索和实践融合发展的需要与必然[9]。

2010 年起,国内逐渐兴起关于数字出版与传统出版融合的研究。2011 年,《新闻出版业“十二五”时期发展规划》等都将数字出版纳入重要扶持领域,加快传统出版与数字出版的融合发展成为“十二五”时期产业发展的新目标[10]。2012 年,开始有“出版融合”这一概念。在新闻出版体制改革和媒介融合背景下,出版融合成为新闻出版业的发展方向。但是同样,其与“融合出版”仍是两个不同的概念,前者侧重于“融合”而后者则更侧重于“出版”[11]。

融合出版作为一种建构在数字化技术和互联网平台基础上的新兴出版范式[5],要求传统出版与新兴出版在内容、渠道、平台、经营、管理等方面进行深度融合[12]。融合出版的目的在于实现出版内容、技术应用、平台终端、人才队伍的共享融通,从而构建组织结构、传播体系和管理体系一体化发展路径[8]。但这个新名词提出之后的几年间相关研究寥寥无几。据知网文献库的中文文献统计结果显示,2019年后,国内有关“融合出版”的研究数量才有了较大幅度的增长,2020 年发表的文献数量已超百篇,且较2019 年几乎翻了一番。至今,融合出版已成为较为热门的研究话题。越来越多研究者关注融合出版背景下优秀人才的培养[13-16],图书编辑的素养提高[17-20]以及版权保护工作等[21]。然而,融合出版领域发展速度还是相对较慢,传统出版业的数字化转型正面临比较大的技术困境[22],人才建设和机制创新上也有待突破。因此,我们需要更加精准定位该领域的未来研究方向,从而促进该领域更好更快发展。但目前国内几乎还没有研究者关注融合出版的未来研究,为弥补这一缺失,本文将从此角度出发,结合机器学习对融合出版领域进行深入探索。

1.2 未来工作研究概述

国内外现如今针对未来工作方面的研究数量相对较少。Hu 等[23]在2015 年以信息检索、文本挖掘和数字图书馆领域为例,开展未来工作挖掘问题。他们通过一种基于正则表达式的方法抽取学术文本中的未来工作句,并将其定义为问题、方法、评估和其他四个类别,通过对比不同特征与机器学习模型的组合,实现不同领域的未来工作句分类。这是对论文中的未来工作句展开的首次探索,其创新性研究成果极大地推动了未来工作的开展。

随后,Li 等[24]利用人工设定规则来识别未来工作句,从中提炼出关键词并与标题和摘要中关键词进行匹配,从而得到不同领域文献与未来工作二者的概念上的联系。Zhu 等[25]使用深度学习模型BERT 对2006—2016 年间JASIST 期刊论文上的1579 篇论文进行未来工作句抽取,并用层次聚类方法确定了未来工作句的四种类别,即支持性的、方法性的、识别潜在影响因素的和提出未来目标的。之后,也有一些研究人员开始使用规则匹配和BERT 相结合的方法来提取未来工作句[26]。近几年Zhang等[27]使用机器学习模型对NLP 领域学术论文的未来工作句进行研究,成功训练出具有较优性能的自动识别与分类模型[25,27-29]。但总体来看,针对未来工作句的研究数量较少,其大多是基于规则和统计的方法。基于规则的方法的优势在于分类精度高,操作也比较灵活方便,但规则必须具备足够的代表性。而且,随着类目的扩大,需要设置的规则数量也会增加,从而使得规则的维护变得更加困难[30]。而基于机器学习的方法从一定程度上可以解决这些问题。本研究中也采用基于机器学习的方法进行未来工作句挖掘研究。机器学习相较于以往传统方法在文本分类任务上往往都能表现出较好的性能。但是,使用单一模型进行分类难以全面地对文本进行特征提取,而且易忽略上下文语义关系,从而导致模型的分类效果欠佳[31]。近几年越来越多的研究者开始探索模型的改进与融合,以提高分类效果[31]。

2 研究内容

本研究通过对融合出版领域的学术论文未来工作句进行挖掘研究来分析该领域的未来研究趋势,探测融合出版领域的前沿主题,发现该领域新兴与热点话题。研究以知网文献库中的融合出版领域中文论文全文本为数据来源,利用人工标注得到未来工作句识别与分类语料库;之后在识别语料库上使用支持向量机、朴素贝叶斯和随机森林三种机器学习模型与SelectKBest 特征选择方法结合训练性能最优的未来工作句自动识别模型;最后在分类语料库基础上针对未来工作句类别进行进一步占比与统计分析。本文的研究框架如图1 所示。

图1 研究框架图

2.1 语料标注与预处理

2.1.1 用于未来工作句识别的分类语料标注

由于本研究的研究对象是融合出版领域的论文,为了保证数据的准确性与领域特性,本研究采用知网中通过查询词为“融合出版”的篇名搜索得到的融合出版论文为研究对象,从人工筛选(筛选过程中过滤篇名中“融合出版”没有作为整体出现的论文)后得到的447 篇文章中抽取研究数据构建未来工作句语料库。未来工作句的标注主要分两个阶段,第一阶段抽取期刊论文的未来工作相关章节,第二阶段从相关章节中抽取未来工作句。

第一阶段是未来工作相关章节抽取。在抽取工作前,笔者观察过大量该领域相关论文,发现未来工作句出现的位置几乎都是文章末尾部分章节。这些章节主要分成两种情况,一种是作者将未来工作单独用一个章节来说明,章节名诸如“未来展望”“未来工作”等;另一类则是将未来工作放在文章总结性章节来论述,章节名诸如“小结”“总结”“结论”等。因此,本研究从论文的这些章节中抽取未来工作相关章节。之后笔者使用人工抽取的方式将每篇文章的篇名、发表年份以及未来工作相关章节抽出后用同一张工作表进行存储,方便后续的研究与分析。

第二阶段是未来工作句抽取,我们在之前构建的工作表的基础上进行后续的未来工作句抽取工作。通过对语料进行分析,总结出未来工作句总体特征,并且参考先前研究者在NLP领域的研究成果[27],总结出针对本研究语料库内未来工作句的判别标准。未来工作句的判别标准主要分成以下三种:

(1)对未来工作的直接提及,如“在未来工作中将进一步探寻…” “未来还需…”。例句:“目前科技期刊传统出版亟待数字化转型,而信息产业的数字出版还不成熟,足以看出拥有全面数字化特征的科技期刊融合出版模式将成为未来的发展方向[32]。”

(2)包含引出未来工作的词语,如“后续我们将…” “下一步我们将…”。例句:“因此,如何培养兼具专业知识和新媒体操作技能的“两栖型”期刊编辑人才是后续研究的重要方向[33]。”

(3)承上启下的连接句,如“本研究还需进一步完善和深入” “未来的研究工作将具体包含以下几个方面”。例句:“但是仍有不少可以开拓的空间[34]。”

本研究中,未来工作句抽取与标注过程严格按照标注规范进行,此阶段主要是人工识别与标注,最终标注出未来工作句共216 句。另外,我们也标注出非未来工作句共388 句,最终形成标注语料库情况如表1 所示。

表1 标注语料库统计表

2.1.2 用于未来工作句类型分类的语料标注

为了更加深入了解融合出版领域的研究现状,从而更精准定位其未来研究方向,本研究对于未来工作句集依据事先构建好的分类体系人工判定类别,形成本研究的未来工作句类型分类语料库。本研究首先对语料进行阅读与分析,发现此语料与先前研究者在对NLP 领域的未来工作句自动识别与分类研究[27]中采取的分类体系较为契合。该分类体系基于扎根理论构建,研究者将未来工作句分为方法、资源、评估、应用、问题和其他六大类别。本研究选取融合出版领域部分未来工作句进行预标注后发现,由于语料的领域特性,某些句子按照此分类体系归类不是很恰当。因此,我们在此分类基础上增设“管理手段”和“工具”两大类别,并在“管理手段”下设置了“人员”和“管理制度”两个子类别,具体分类标准如表2 所示。

表2 未来工作句分类表

2.1.3 数据预处理

经过预处理的数据,可以获得更加准确的语言特征,从而更好地支持机器学习模型的训练,并且能更加快速地获得更为准确的训练结果。为此,我们必须先完成数据的清洗、分词、去停用词等工作,从而为机器学习的准确性奠定坚实基础。

(1)数据清洗

本文首先需要对文本进行一些去空去重操作,即处理一些无意义的空格、空行,其次,去除一些无用的标点符号,以方便后续进一步数据处理。

(2)分词

由于中文没有明确的句子分割标准,因此需要使用更复杂的分词模型进行分析。本研究使用jieba①https://pypi.org/project/jieba/进行中文文本的分词。为了提高分词的准确性,本文通过去停用词来进行分词的优化。

2.2 模型建立与训练

2.2.1 文本表示

通过使用文本表示,我们可以把数据转换成计算机能处理的形态,比如向量或矩阵。本文采用的离散式中的TF-IDF[35],它是最为常用的文本特征权重计算方法。TF-IDF 可以用以评估文档集合中的某个字词或是语料库中的某份文档中的某个字词的重要程度。当某个词在一篇文章中出现的频率TF 高,并且极少出现在其他文档中,则我们可以判断此词具有出色的类别区分能力[36],其计算公式如下:

其中,Wi,j表示文档j中第i项词项的权重,N则表示集合中的文档数量,此外,tfi,j表示文档j中第i个词的词频,dfi表示集合中出现当前词项wi的文档数[37]。

2.2.2 文本特征选择

特征选择可以减少冗余特征,保留具有较强区分能力的特征从而提高分类器的表现并且防止分类器过拟合[38]。其方法可以归纳为三类:过滤式、包裹式和嵌入式[39]。

特征选择方法种类很多,本研究中主要采用SelectKBest。原因在于其他常用算法如特征递归消除算法(Recursive Feature Elimination,RFE)和随机森林(Random Forest, RF)等,分别存在稳定性和选择偏向的问题[40]。SelectKBest 是一种基于统计学原理的过滤式特征选择方法[41],用于从n 堆数据中寻求价值最优的k类数据[42]。它可以根据给定的评价函数和得分,来选择和排名特征。在使用SelectKBest 时,如果数据集中含有不止一个特征,可以采取评分函数进行特征筛选[43]。在本研究中,采用卡方检验(Chi-Squared Test)作为评分函数。此种特征选择方法在分类任务上已有成功应用[44-45]。

2.2.3 文本分类模型训练

未来工作句自动识别任务本质上属于二分类问题。在本实验中,我们选择采用支持向量机(Support Vector Machine,SVM)、朴素贝叶斯(Naive Bayesian,NB)和随机森林训练未来工作句自动识别模型,通过对比模型性能选择最优模型。

支持向量机是一类广义线性分类器,它采用监督学习的方式对数据进行二元分类。SVM首先利用以内积函数进行定义的非线性变换将输入空间变换到一个高维空间,之后在这个空间中来求解(广义)最优分类面[46]。在本实验中,采用核函数为linear 的LinearSVC 模型,最大迭代次数maxiter 设为5000,惩罚参数C 设为1.0。

朴素贝叶斯是一种基于概率统计的机器学习算法,其原理在于通过类别的先验概率以及特征分布相对于类别的条件概率来计算未知文档属于某一类别的概率[47]。本实验中选择的是伯努利朴素贝叶斯(BernoulliNB),拉普拉斯平滑系数alpha 设为0.0001。

随机森林是一种具有较高预测准确率的抽样方法,利用bootstrap 重抽样方法从原始样本中抽取多个样本,对每个样本进行决策树建模,然后组合多棵决策树的预测,通过投票得出最终预测结果。本实验中基评估器数量n_estimators 设为200。

3 结果分析

本节中我们结合未来工作句自动识别模型的训练结果和未来工作句类别进行进一步分析。

3.1 未来工作句自动识别模型训练结果评估

在研究过程中,需要对模型进行评估。通过采用K 折交叉验证(K-Floder Cross Validation)[49],我们可以将大量的数据加入模型的训练和预测,同时避免划分训练集和测试集时的随机性,从而大大减少模型的不准确性,并且更好地体现出交叉验证的概念。

本研究将数据集按9:1 划分为训练集和测试集,进行十折交叉验证[50],并将结果进行平均,来比较判别分类模型的优劣。

在本研究中,我们将正确率(Accuracy)、精确度(Precision)、召回率(Recall)以及F1值作为评估指标[51],以期获得更准确的结果。

以上指标的详细定义如下:

由于精确率和召回率是一对矛盾的度量,模型评估中又往往需要同时考虑这两项指标,F1值即为人们设计的满足这一需要的性能度量指标[52]。故本实验中我们最终以F1值来选定最优模型。

3.2 未来工作句自动识别实验结果分析

我们将LinearSVC、BernoulliNB 和RF 三种模型分别与SelectKBest 特征选择方法进行组合,使用网格搜索的方法调整超参数k。

以LinearSVC 模型的超参数k 的调整为例,我们首先将起点与终点分别设为100 和1500,步长设为40,得到k 在(460,620)内取值模型性能可能最优,如图2(a)所示,之后我们在(460,620)区间上将步长设为10 继续调参,得到k 的最优取值区间为(510,550),如图2(b)所示,本实验中我们取530 作为k 值。

图2 LinearSVC 模型k 值调整验证曲线

根据调整结果,最终得到k 值为530 时,LinearSVC 性能最优,加权平均F1达到了92.08%;k 值为48 时,BeroulliNB 性能最优,加权平均F1达到了91.77%;k 值为192 时,RF性能最优,加权平均F1达到了88.91%。具体结果如表3 所示。

表3 未来工作句自动识别模型训练结果评估

对比支持向量机、朴素贝叶斯和随机森林三种模型的训练结果,我们得到LinearSVC 模型在未来工作句自动识别任务中性能最佳,加权平均F1值达到92.08%。这表明此模型可以很有效地区分未来工作句和非未来工作句。今后我们可以使用此模型在更大规模语料库中进行未来工作句的自动识别,比人工抽取能节省更多时间与精力。

3.3 未来工作句类别分析

在未来工作句类别标注过程中,为了控制标注质量,我们采用双人隔离标注的方式,之后将结果进行对比,出现分歧时,通过小组讨论或者专家评议确定最终结果,确保标注的一致性;并且,标注结果再经由专家审核,从而保证标注质量。由于每个未来工作句都只能标注唯一的类别标签,若一个句子中含有多于一种类别的未来工作句,则需要拆分后再进行类别标注。我们在标注后得到的分类语料库基础上对未来工作句类别进行进一步探究,主要包括未来工作句类别占比分析和分布分析。

3.3.1 未来工作句类别占比分析

(1)一级类目类别占比分析

笔者针对未来工作句识别语料库中的未来工作句类别占比进行统计,结果如图3 所示。

图3 未来工作句类别分布图

从图3 中可以看出,方法类未来工作句占比最大,这表明,融合出版领域的研究者对于方法的改进与创新较为重视,关注新方法的探索,体系的建立与维护等。其次,问题类、管理手段和工具类未来工作句也占有一定比例,说明研究者也较关注该领域尚未解决的难题,并关心人员管理以及管理手段上的革新。同时,希望利用软件、平台和工具来加速融合出版领域的发展。但是,我们不难发现,评估类和资源类未来工作句占很小,仅有1%,这一方面表明研究者可能认为这两个方面研究意义不大,即便改进和创新对该领域的发展也无法起到较大的推动作用。但另一方面,正是融合出版领域发展至今这两个方向的未来研究有所欠缺,导致可能有些好的想法被忽略,而这往往可能正是突破点所在。这也为研究者的未来研究提供了一个很好的思路。

通过分析结果,我们可以预测未来融合出版领域的研究方向应该还是以方法、问题、管理手段和工具为主;而对于资源和评估类,未来可能需要在评估研究价值性后考虑是否要在这些方面投入更多精力,寻求突破。

(2)二级类目占比分析

为了更精准定位融合出版领域研究者的未来研究倾向,我们选取了占比最大的“方法”类别和我们比较感兴趣的“管理手段”类别进行子类别占比分析。由图4(a)中可知,在方法类别的研究中,研究者多倾向于探索或引入更适宜的新方法,因为融合出版本身就要求出版业在传统方法上结合数字技术进行革新。此外,对相关体系建设与维护也是该领域一个较为重要的发展方向,研究者提议结合时代环境构建一个良好的体系环境,从而保障融合出版更好更快发展。这一方面需要出版业做出努力,另一方面也需要政府和社会提供政策支持与保障。

图4 未来工作句子类分布图

我们在管理手段下又分为人员和管理制度两个子类,从图4(b)中我们可以看到,人员管理与人才培养非常有必要。不仅需要编辑人员提高素质,不断学习来自我提升,管理决策者也需要把握好行业形势,重视优秀人才的培养,更好助力该领域发展。另外,在管理制度上也不能固守成规,需要适时创新。

3.3.2 未来工作句类别分布分析

此外,我们分别统计了2014—2023 年各年份的不同类别的未来工作句数量,进行分布分析,结果如图5 所示。

图5 未来工作句类别分布图

从总体来看,方法类未来工作句的占比在近五年表现出明显优势,自2019 年后,该类别未来工作句数量大幅增长。由于近几年各种新技术飞速发展,互联网、云计算与人工智能逐渐渗透到各个领域,传统出版业试图在传统方式上利用数字技术寻求新的突破。我们也可以预测到融合出版领域的未来研究应该还是以方法为主,在传统方法基础上加以改进与创新,相关体系建设与政策支持也是未来研究的重点。

另外,从图中我们也可以看到,近几年问题类的未来工具句数量也在不断增长。随着技术的飞快革新,研究者的创新想法愈来愈多。但数字技术的融入过程也会带来很多问题。例如平台建设方面资金投入不及时,版权保护与个人信息保护仍存在不少漏洞等。这些问题都有待未来研究者深入探索,寻求最佳解决方案。

而对于某些类别,譬如资源类和评估类,从2014 年至今未来研究方面都有所欠缺,说明此领域对数据和评估的依赖可能不如其他领域显著;还有一种可能是对该领域的研究开始得较晚,这两个方面还未有大规模研究者对其进行深入挖掘。未来可能需要该领域研究者评估价值性后考虑是否要加大投入。

3.4 未来工作句内容演化分析

为了更加深入了解融合出版领域未来工作的具体内容,探析该领域的前沿主题及其变化规律,我们对2019 至2023 年的未来工作句具体内容进行深入分析。首先我们提取各年份未来工作句数据集计算逆文档频率并筛选后的Top20 的词项进行分析,总结近五年融合出版前沿主题以及演变趋势,为该领域后续发展提供借鉴。

在基于逆文档频率的未来工作句内容分析时,我们首先抽取了Top50 的词项,经过观察发现,其中有些词是“融合出版”和“未来工作”相关词,以及一些无实际意义动名词和程度副词。为了更好地分析前沿主题本身,我们在所有词项提取结果中均删除了这些词,并在筛选后的结果中取Top20 的词项进行分析,词项内容如表4 所示。

表4 未来工作句分类表

从各年份的Top20 词项内容中,我们可以很清晰探察到各年份融合出版领域的前沿主题的差异及变化趋势。

2019 年,融合出版领域重点关注的前三位分别是“媒体”“科技期刊”与“传播”。结合之前的背景研究,2019 年融合出版领域研究论文数量大幅增长,这一年发表的论文中,研究者大多还是从“媒介融合”视域出发去研究融合出版领域问题,并且重视领域相关概念、方法等的传播。其次是对期刊和编辑等的要求,鼓励期刊突破传统出版方式,发挥“领头羊”作用,积极利用数字出版优势;鼓励编辑努力提升素养,转变观念,致力于融合出版领域的发展。另外,这一时期研究者也开始重视技术的利用,主要是基于互联网信息和技术与传统出版的融合来实现创新与突破。

2020 年,融合出版领域重点关注的前三位分别是“技术”“内容”与“创新”。这一时期该领域在建立好领域根基后,开始寻求技术层面的突破。另外,我们看到“管理”“问题”与“平台”的排名也较靠前,研究者也开始意识到管理与工具的重要性,融合出版不仅仅依靠出版社与编辑提升与转型,相关企业也需要在营销管理、体系构建与人才培养上倾注更多精力,另外,融合出版发展遇到的一些问题也不容忽视,需要多方共同深入探究并寻求解决方案。

2021 年,融合出版领域重点关注的前三位分别是“编辑”“技术”与“问题”。这一时期,融合出版领域对“人”提出了更高的要求,更加注重人才培养与管理,“技术”与“问题”仍旧是该领域关注的焦点。另外,我们观察到,该时期的Top20词项中出现了“需求”“用户”“产品”“服务”这类词,该领域开始考虑到用户需求与服务,这说明融合出版领域开始重视应用层面的问题。

2022 年,融合出版领域重点关注的前三位分别是“技术”“媒体”与“内容”。在考虑到应用层面后,研究者发现要着重解决的还是技术上的问题,并且主要是出版内容的融合,这才是提升应用性能的最佳途径。这一时期融合出版的前沿问题主要是如何改进与扩展技术来解决应用层面的问题。另外,我们发现“少儿”与“少儿科普”排名也较高,这也是融合出版领域服务视野拓展的表征。由于少儿是图书阅读的一类较大数量群体,所以也是传统出版与数字出版融合浪潮中受影响较大的一类群体,要更加重视这类群体的服务层面的问题。

到了2023 年,融合出版领域重点关注的前三位与前一年相差无几,分别是“技术”“内容”与“创新”。说明融合出版领域聚焦点没有发生太大变化。值得注意的是,这一时期,“教育”一经出现便排到了第四的位置,说明这一时期融合出版领域从开始的“少儿科普”考虑到更为全面深入的问题,例如融合出版以何种方式融入教育中,如何在青少年培养中发挥最大作用等。另外,“高质量”“高质量内容”和“高质量发展”的出现让我们看到该领域发展到这一时期,基础层面的构建工作已基本完善,开始追求高质量高水平发展,这也是一个领域发展趋于成熟的象征。

结合融合出版领域近五年的未来工作句中Top20 词项,我们可以看到该领域从起步走向成熟的演化过程,这五年中该领域发展侧重点也经历了一个较为鲜明的变化。另外,每年都有新的前沿主题的出现,这些前沿主题从开始受到关注到问题的发现与方法的探究再到应用层面的完善恰恰也是该领域一步步发展与壮大的具象表示。

4 结语

本文为探测融合出版领域前沿主题与未来有意义研究方向,通过采集知网文献库中的中文文献数据,结合机器学习进行未来工作句挖掘研究。研究主要利用融合出版领域论文为数据构建了未来工作句识别与分类语料库,在此识别语料库基础上使用支持向量机、朴素贝叶斯和随机森林三种机器学习模型与SelectKBest特征选择方法进行未来工作句自动识别模型训练,对比模型训练结果选择出性能最优的LinearSVC 模型。该模型的F1值达到了92.08%,表明该模型可以很好地从文本中识别出未来工作句。另外,我们还基于未来工作句分类语料库对未来工作句的八大类别进行更进一步的研究,主要包括占比分析与分布分析。结果表明,融合出版领域的研究者更倾向对方法和问题类未来工作的研究,他们更关注该领域方法的改进与创新,并关心尚未解决的难题及有意义的新问题,对于资源和评估方面则关注较少。由此我们预测该领域未来的研究方向也是偏向方法与问题方面,而资源和评估方面可能需要研究者衡量研究价值后决定是否需要对其展开更加深入的研究。最后,本研究还通过对融合出版领域未来工作句本身内容研究来分析并总结该领域近五年的前沿主题的演化趋势,从而更好探析该领域过往前沿问题研究重点及其变化,并为未来研究提供借鉴。

本文也存在一定的不足,例如语料库规模较小且未采集英文论文数据,训练的模型还有待在更大规模语料库上测试抽取效果,另外,还未使用深度学习模型对比模型效果。后续我们将进一步扩大语料库规模,拟加入英文论文数据,且拟采集知网文献库之外的数据,例如微信公众号文章和新闻报道等;之后也将在更大规模语料库上测试模型的自动识别效果,也可进一步测试模型在其他领域语料上的适应性;此外,未来将使用深度学习模型与传统机器学习模型作对比,从而训练性能更优的未来工作句自动识别模型,提高识别准确率。

猜你喜欢

类别语料库研究者
高等教育中的学生成为研究者及其启示
《语料库翻译文体学》评介
研究者称,经CRISPR技术编辑过的双胞胎已出生。科学将如何回应?
研究者调查数据统计
服务类别
医生注定是研究者
基于JAVAEE的维吾尔中介语语料库开发与实现
论类别股东会
中医类别全科医师培养模式的探讨
聚合酶链式反应快速鉴别5种常见肉类别