三种信息粒度下的新颖性探测理论及其应用
2016-02-14,,,,
,, ,,
科学文献除了作者、期刊、内容本身的属性之外,还有一个更为重要的属性—时间属性。一篇具体文献是处于具体时间下的一个产物,文献涉及的主题存在着过时与新兴的差别,文献包含的知识对于其读者有已知和未知之分。2002年由美国国防部高级研究发展署(ARDR)与美国国家标准及技术研究所(NIST)共同主办的文本检索会议(TREC),首次将新颖性探测(Novelty Track)作为其中的一个正式比赛任务,并拉开了新颖性探测的序幕。在TREC比赛中规定的新颖性探测要求为,当前语句与之前出现的语句相比较,携带了新信息。本文拓展了TREC会议新颖性探测的要求,根据文献携带信息粒度从大到小排序,从文献集、文献、文献句子这3个层面,进行新颖性探测的理论及应用探究。3个层面的新颖性探测,分别能够自动地、快速地发现某一领域内新兴的研究主题,描述文献的新颖程度,或者探测具体文献包含的新内容。这些功能为图书馆的知识服务提供了新的思路。
1 文献集层面的新颖性探测
文献集层面上的新颖性探测,实质上是文献计量学的研究范畴,其概念的内涵等同于研究前沿的探测、新兴趋势探测,以及科学知识图谱。目前国内外研究较为成熟的文献集新颖性探测方法主要有引文分析法、词频分析法。引文分析法包括直接引用分析法、共被引分析法及引文耦合分析法,词频分析法包括词频频率探测法、共词探测法。研究前沿的探测分析多引入可视化分析技术,常用的有CiteSpace、Hiscite、SPSS、Pajek、Ucinet等。
董立平[1]2010年运用引文分析法,利用Histcite可视化引文编年图对人胚胎干细胞文献进行分析,得出2006-2008年期间胚胎干细胞的培养、多能性的维持、基因表达等方面研究进一步深入,同时“诱导多能干细胞(iPS)”为此期最重要的研究主题之一。他指出2006年TAKAHASHI小组将成人成纤维细胞成功诱导为多能干细胞,这一发现引起了生命科学领域的一次巨大轰动,他的研究必将极大地促进人胚胎干细胞研究发展。2012年[2],日本科学家山中伸弥(Shinya Yamanaka)因其在细胞核重新编程研究领域的杰出贡献,获得诺贝尔生理学或医学奖。
邱均平[3]基于关键词对国际图书情报学的前沿进行探测分析。他利用CiteSpace的膨胀词探测算法,通过考察词频的时间分布,依靠词频的变动趋势确定学科领域的研究前沿,并得出2006-2010年国际图书情报学研究前沿主要有医学信息学、引文分析、虚拟网络社区、语义信息检索等研究领域。
基于共词分析方法探测学科研究前沿,国内最早的研究见于崔雷[4]撰写的《专题文献高频主题词的共词聚类分析》。该文将共词分析定义为一种文献计量学方法,其主要原理是对一组词两两统计它们在同一篇文献中出现的次数,以此为基础对这些词进行聚类分析,从而反映出这些词之间的亲疏关系,进而分析这些词所代表的学科或主题的结构与变化。
以上文献集层面上的新颖性探测方法,成功地探测到具体领域的研究热点和动态。然而引文分析法中的引文网络的形成较为滞后,且只考虑了文献的影响力,忽略了文献的重要性;词频分析法缺点在于标引词和计量数据的主观选择。本文认为将两种方法结合使用,能够互相弥补不足,优化探测结果。
目前,基于Web of Science数据库的深度分析型研究工具ESI,能够自动地分析ESI期刊分类下22个学科的研究前沿,具体方法是高被引论文聚类分析确定研究前沿。该公司于2015年10月与中国科学院情报中心发表了《2015研究前沿报告》[5],基于ESI各个学科领域研究前沿生成新兴研究前沿和重点研究前沿,该报告对各个研究前沿的具体内容给予了详细分析。
从理论层面对文献集层面的新颖性探测的方法论分析到ESI指标数据库自动生成某一学科的研究前沿这一实践,提示图情工作者建立完善的文献集层面新颖性探测工具。利用某学科已发表文献探测该学科领域的研究前沿,能够帮助科研人员识别当时的学科领域内研究前沿和动态,预测学科发展的方向,进一步解答学科研究人员如何选题,甄别已选课题是否为热点、是否有潜力等问题。
2 文献层面的新颖性探测
文献层面上的新颖性探测,能够对具体的文献进行新颖性评价,对科研人员在文献调研阶段寻找新颖的文献具有指导意义。
在生物医学领域,Science Navigation Group[6-7]机构于2002年1月创建并推出了全球的生物学评价系统F1000(Faculty of 1000 Biology),随后又于2006 年推出了全球的医学F1000(Faculty of 1000 Medicine),2010年合并为F1000.com。F1000[8]是同行评议数据库,每年对全球文章总数不足2‰的优秀精品医学论文在创新性、新理论、新发现、新技术、科学价值和实际应用前景等6 个方面进行评价,但不能对科研工作者获得的所有文献的新颖性进行逐一评价。本文认为文献层面新颖性探测是指智能地、自动地对大量的文献进行内容新颖性探测,即在某一科研领域,对待探测文献与其之前发表的所有文献比包含了多少新信息进行具体量化计算。计算结果是一个数量型的度量单位,一个相对指标,其值越大,说明文献在内容上与之前发表的所有文献差别越大。
以往的大量研究显示[9],文献层面内容新颖性探测是容易实现的,如同一领域的杂志一年内发表的所有文献,两两对比,内容迥异的占绝大多数。因此设计一个量化指标,能够准确地表明文献之间的差异程度,描述待探测文献在其涉及的研究领域是否新颖,是否是国内外众多学者研究的热点和难点。本文认为国内学者杨建林[10]提出的基于关键词对逆文档频率的主题新颖度度量方法论证合理,值得借鉴。
杨建林提出了计算文献新颖度的共词原则、时间戳原则、词频原则、逆文档频率原则,并基于这4个原则,进一步提出了文档新颖度的计算公式,并对该公式的实用性与合理性进行了实证研究。作者选取《情报学报》和《情报资料工作》两种期刊2011年第一期上刊载的论文进行主题新颖度的比较。两种期刊在学术质量上分布处于情报学领域的不同层次,经过计算得出同一学科领域重要核心期刊刊载论文的平均主题新颖度要高于普通期刊。
杨建林的探测过程存在不足之处:一是其实证分析的数据量过少,缺少统计分析;二是对于新颖度探测结果的评价方面,未做出科学合理的分析。这一点也是国内外文献层面新颖性探测的主要难题之一。本文认为当前文献层面新颖性探测的理论研究较少,面临的困难较大,需要图情专业人员投入精力进一步研究探索。一个成熟的文献新颖性探测指标的建立,对文献评估、期刊评估、学术团体评估、科研人员评估都有着辅助作用,可以作为一个全新的评估因素,具有实际应用价值。此外,文献层面新颖性探测对文献评价服务、推荐服务、个性化文献提供服务起到了理论支持,帮助科研人员将有限的时间放在较为新颖的文献阅读上,提高阅读学习效率,继而提高科研效率。
3 语句层面的新颖性探测
语句级新颖性探测,针对的信息粒度更小,起源于文摘生成。文摘生成可针对多主题、单主题、单个文档和多个文档。商玥[11]等人通过自动摘要技术对生物医学概念进行摘要抽取,利用生物医学语义关系抽取多文档摘要,分析了风湿病、脑脊髓炎等5种疾病的相关文献,生成的摘要覆盖了这几种疾病的致病原因、类型、防治策略等语义类型。该文语句冗余去除部分采用了相似度计算方法,将同一语义类型下词频排序达到某一阈值下的所有语句,保留相互之间相似度低的语句作为查询生物医学概念的生成摘要。
语句级新颖性探测与文摘生成中冗余去除计算有着相似的理念,但具体要求不同。文摘生成的最终目标是生成一个涵盖语义类型丰富的文摘;新颖性探测是将文献或者多篇文献中相异度大的语句,抽取出来形成一个包含新信息的语句集合,提供给科研人员,提高其阅读学习效率。虽然目的不同,但二者使用的相似度计算公式可以互通,所以发展较成熟的文摘生成为语句级新颖性探测提供了许多计算思路。
语句级新颖性探测的历史可追溯到1996年,由美国国防部发起的话题识别与追踪(Topic Detection and Tracking)项目的一个子项目—首次报道识别(First Story Detection或New Event Detection),要求在以时间顺序排列的数据流中,识别探测出首次讨论某个话题的报道[12]。2002年9月,第11届国际文本检索会议(TREC)首次将新颖性探测(Novelty Track)作为其中的一个正式比赛任务。比赛规定的语句新颖性特征是与已有语句相比较,携带了新信息[13-15]。在这届比赛中,中科院研究所、清华大学取得了不俗的成绩。
中科院研究所张华平[16]团队开发的Noovel系统参加了2004年的TREC比赛,参与新信息发现任务的全部4个子任务。在关键的任务l中,Noovel的“新信息探测”结果排名第一,与参赛的其他13支国际研究团队进行综合比较,Noovel系统在新颖性探测方面的研究相对较优。中科院研究所邢美凤在2012的博士论文中,对当时支持语句新颖性探测的算法进行了分析总结[17]。
本文认为语句级新颖性探测的过程通常有3种:一是对语句进行文本表示,将文献中自然语言转换成规范统一的计算机语言;二是语句新颖度算法设计和算法运行;三是结果阈值设置、结果评估。
文本的表示方式主要有向量空间模型,语言模型和概率模型3种[17]。向量空间模型和概率模型的表现形式类似,只是在每个词项的权重计算中,向量空间模型利用词频的方式,概率模型计算在相关文档和不相关文档中出现的概率值来估计。基于向量空间模型和概率模型的文本新颖性检测方法,有相似度算法、命名实体识别算法、聚类算法、K近邻算法、概率模型方法、神经网络等;基于语言模型的文本新颖性探测方法,有风险最小化框架模型、隐马尔可夫模型等。
结果阈值设置和结果评估设计来源于TREC会议[13-15],其主要内容是将语句的计算结果与设置的阈值相比较。如果计算值大于阈值,认为该语句包括新信息,反之则不包括。同时利用人工标注出语句集中所有包含新信息的语句,作为系统评测的参考答案,引入召回率(Recall)、准确率(Precision)与F值3个评价指标。
召回率反映了计算返回的正确结果在全部正确结果中的比率,公式为:Recall=M/A,其中M指评测系统和人工都认为是正确语句的数量,A指由人工方式选择的正确答案的数量;准确率反映了计算返回的结果中正确结果的比例,公式为:Precision=M/S,其中S指由评测系统返回的正确答案的数量。F值测度的方法联合考虑准确率和召回率,对两者进行了权衡,具体计算公式为F=2×M/(A+S)。语句级新颖性探测是信息粒度最细的新颖性探测研究,旨在为科研人员过滤出新的信息的语句集合,避免人员对相同信息的反复阅读,提高其阅读学习效率。另外,对于检索系统而言,语句级新颖性探测能够有效的避免语句信息冗余,丰富了检索引擎的结果呈现。
4 结语
综上所述,如何将3个层面的新颖性探测有效地结合使用,不仅仅是从理论到实践的一个发展,也是图书馆从传播文献数据到传播知识的转型的一个突破口。利用文献集,勾勒相关领域的发展脉络,出具相关领域的发展态势和研究热点预测报告;利用文献主题内容,评价文献的新颖性,为期刊、作者以及团体评价提供新的指标;利用文献语句,标记携带新信息的语句供读者阅读。这些知识服务,在将来的图书馆服务中,可体现服务的个性化、深层化。在信息传媒迅速发展的时代,图书馆员对科技文献知识的梳理及呈现,势必受到科研人员的认可。