面向科学计量分析的司法鉴定学科知识图谱构建与应用研究
2017-03-03王雅兰朱尚明
王雅兰,朱尚明
(华东政法大学,上海200042)
鉴定论坛Forensic Forum
面向科学计量分析的司法鉴定学科知识图谱构建与应用研究
王雅兰,朱尚明
(华东政法大学,上海200042)
为了更客观和直观地展示我国近年来司法鉴定学科的研究成果,通过信息可视化领域的前沿技术——知识图谱,在主题演化以及研究的交叉联系等方面进行深度挖掘,最终以图谱的形式梳理学科的研究力量分布、学术代表人物、研究热点与演进趋势。基于数据库资源以及科学计量学基础理论,利用可视化工具,以中国知网(CNKI)中收录的2006—2016年《中国司法鉴定》的所有刊载文献为研究对象进行分析并对图谱进行深入解读,分析该刊载文情况相关数据,探索近十年司法鉴定学科的研究热点与演进趋势,为司法鉴定领域研究人员提供直观的参考依据。
司法鉴定;科学计量;司法鉴定热点;司法鉴定前沿
近年来,知识图谱(Mapping Knowledge Domain)以其理论上的综合化、方法上的可视化、描绘上的形象化等诸多特征获得迅猛的发展,目前已成为分析学科领域热点和前沿的有效手段与有力工具。从概念上来说,知识图谱是一种把应用数学、图形学、信息可视化技术、计算机技术等学科的理论、方法与科学计量分析相互结合的跨学科研究领域。把复杂的知识通过数据挖掘、信息处理、知识计量和图形绘制显示出来,从而揭示知识领域的动态发展规律,为学科研究提供切实的、有价值的参考[1]。
1 研究方法
信息可视化是近年出现的数据挖掘方法之一,它能很好地利用人类对可视形式下的模型和结构的获取能力,解决科技文献数据量过大、无法快速和有效交流的问题,同时可视化数据挖掘能够观察、筛选、发现和理解信息,发现隐藏在数据和信息背后的含意[2]。
在可视化技术与数据处理技术的双重作用下,科学计量分析领域的知识图谱研究逐渐兴起,现已发展成为重要的分析工具。知识图谱利用现有的数据库资源,在主题演化以及研究的交叉联系等方面进行深度挖掘,最终展现出待分析文献所在领域的研究现状与发展趋势。国内外学者结合其所在学科,进行了相关的知识图谱研究,越来越多的可视化工具已应用到科学计量分析的结果表达中,如情报学、图书馆学、计算机学等等。然而,目前在司法鉴定领域,尚未发现有此类研究的文献报道。
基于此,本文采用知识图谱分析方法,以中国知网(CNKI)中收录的2006—2016年《中国司法鉴定》刊载文献为数据来源,从研究主体、研究热点、研究前沿等方面深入描绘和梳理了我国司法鉴定学科的主要研究进展,从全景化的角度对该刊的司法鉴定研究进行分析和总结。本文选取的数据来源于《中国司法鉴定》,它是我国唯一的一本全面反映司法鉴定领域科学技术和制度建设等综合内容的国家级期刊,用十年以上数据进行分析,具有一定的合理性、也能反映学科的发展趋势和演进路径。从实践的角度,利用科学计量学的方法对期刊进行定期回顾,对科学工作者从事学术研究和期刊未来的发展具有重要意义[3]。
常用的知识图谱绘制软件主要有:Ucinet,Pajek,Histcite、CiteSpace等[4]。本文采用的CiteSpace是美国德雷克塞尔大学陈超美博士应用Java语言开发的一款信息可视化软件,它主要基于共引分析理论(co-citation)和寻径网络算法(PathFinder),通过对特定领域的文献作为数据集合进行计量,探寻学科领域演化的关键路径及其知识拐点,以形成对学科演化潜在动力机制的分析和学科发展前沿的探测[5]。
2 文献数量分布
数据收集与获取步骤:进入中国知网(CNKI)检索界面,选择“高级检索”,并在刊名处输入“中国司法鉴定”,检索条件为“精确”,选取2006—2016年的刊发论文为研究样本,将11年内《中国司法鉴定》刊载的有效期刊数据的全部信息,包括来源库、题名、作者、文献来源、关键词、摘要、发表时间等进行导出。由于中国知网数据库中2016年份的数据不完整,至研究完成时只有前4期的文献数据,故最后得到所有被收录的2101条文献条目(最后检索时间2016年12月9日)。
CNKI数据库中有期刊总目录、稿约、学术论坛、发言稿、访谈记录以及研究会综述等信息,需要将这些数据人工去除以后,才能进行对司法鉴定学科研究的分析。在原始数据基础上,通过预处理,筛选出最终数据1816条,统计结果如表1:
表1 CNKI收录《中国司法鉴定》发表的司法鉴定文献统计
3 研究机构知识图谱
科研合作是实现资源有效配置的常用途径,跨机构的合作也是科研合作的重要表现形式。由于CiteSpace的界面和分析都是在英文数据来源和英文分析的基础上建立的,其支持国外数据库如Web of Science中直接导出的数据格式,而中英文语言编码的方式不同,CiteSpace软件对中文数据库中的信息,无法直接进行数据处理,需要依靠自编算法程序或格式处理软件进行格式转换。转换成功后,在软件界面将上述有效文献记录导入、建立项目并设置存储路径。网络节点选择机构(Institution),主题词来源选择文献标题(title)、摘要(abstract)、关键词(keyword)和标识符(identifier),算法选择路径搜索(pathfinder)算法,数据抽取对象为 Top50,设置“Time Slicing的值为1(将2006—2016年分成11个时段进行处理)。运行CiteSpace,在可视化界面设置相关参数后,得到有关该刊司法鉴定研究机构图谱(图1)。
图1中,上面横条代表时间,从左到右时间由远至近,颜色逐渐从冷色变为暖色。其中,圆形节点代表研究机构,节点的大小代表该机构的发文量,节点越大,则该机构的发文量越多,节点颜色的变化代表不同年份发文量的变化。节点间的连线代表机构间的合作关系,连线的粗细代表机构间合作的次数,连线越粗,代表机构间合作越密切。
图1显示,2006—2016年间有众多学术机构在该刊上发表文章,说明该刊收录范围较广。《中国司法鉴定》的研究机构主要分布在司法部司法鉴定科学技术研究所、公安部物证鉴定中心,以及法学类高等院校,按照可视化界面的排名可以得出,在该刊上发表文章的核心机构有:司法部司法鉴定科学技术研究所、西南政法大学、华东政法大学、中国政法大学、中国人民公安大学、中国刑事警察学院、公安部物证鉴定中心、司法部司法鉴定管理局、上海市公安局物证鉴定中心、南京师范大学、中央财经大学法学院、苏州市中级人民法院、上海市杨浦区人民检察院、北京大学法学院、公安部第三研究所等。
从各个节点的发文频次看,司法部司法鉴定科学技术研究所的文献贡献率最大,远高于其他机构,其次是政法类院校以及公安部物证鉴定中心,三者成为该刊的核心研究力量,这些机构为司法鉴定学科的成长和发展做出了突出的贡献。
图1 研究机构分布图谱
4 作者知识图谱分析
作者合著是某一领域合作研究的重要表现形式。通过分析期刊作者合著情况,可了解期刊的核心作者及其科学研究成果的科研组织形式,厘清科学研究当中的知识互动关系[6]。
在CiteSpace软件界面,网络节点选择Author,其他选择策略不变,运行CiteSpace得到有关《中国司法鉴定》作者的聚类。由于作者众多全部展示不利于观察和分析,此处调整Article标签中的Threshold值为5、Font Size为6、Node Size为56,选择cluster view后得到主流学术群体及其代表作者的知识图谱(图2)。
图中显示了2006—2016年该刊发文量频次较高的作者,通过对高产作者的分析可以看出,这些学者都是近年来司法鉴定研究领域的核心研究学者,足见该刊的权威性。根据复杂网络理论,在任一个图形中,如果任意两个节点间都存在着相连的路径,则此图被定义为相连图形或连通图,否则为非连通图。通过对作者知识图谱的扫描,可以看出节点间连线较多。这是因为司法鉴定研究理论与实验并重,大型的实验项目往往会涉及作者间的合作,研究成果的公开多采用共同署名。
从图2可以直观地看到,该刊研究的作者网络以合作形式占据主流,且围绕中心性较高的作者,形成了稳定的、具有影响力的核心作者群,在核心作者群的带领下,他们所代表的学术群体推动了司法鉴定学科不同分支领域的衍生与发展,堪称我国司法鉴定各个领域的科研主力军,他们的研究领域和方向代表着我国鉴定学科的研究热点,司法鉴定研究逐步呈现出多角度、专业化的演进趋势。
图2 作者知识图谱
5 关键词共现知识图谱
5.1 研究热点分析
关键词是学术论文的一个重要组成部分,虽然往往只是几个词,在论文中所占篇幅比较少,但却是论文的核心与精髓,不仅可以利用关键词检索到文献,还可以通过关键词了解到文献涉及的领域和内容[7]。作为一种基于文献内容特征进行分析的方法,关键词共现分析主要是计量单元内关键词共同出现的频率及关系,从而揭示某一学科领域内在的知识结构演变状况、研究热点以及科学研究的前沿。
在CiteSpace中,利用最小生成树算法,网络节点选择Keyword,运行软件调整Threshold为12,Font Size为7,再通过Citation/Frequency Burst进行突发性检测得到原始图谱。从原始图谱中可以看到本刊研究中的重点领域,在热点词信息中选取热点词中频次排名较高的词,同时对意思相同的词进行合并统计,最终绘制出关键词图谱(图3),其中红色节点代表突发性节点。
图中各个圆圈的大小表示关键词出现频次的多少,圆圈越大说明相应关键词出现次数越多。结合Generate a Narrative导出的HTML格式分析报告,得到《中国司法鉴定》排名靠前的关键词分别是司法鉴定、鉴定意见、法医学鉴定、医疗纠纷、司法鉴定人、道路交通事故、司法会计、法医临床学、法医病理学、法医遗传学、专家辅助人、重新鉴定、医疗损害、司法鉴定机构、因果关系、专家证人、刑事责任能力、鉴定程序、鉴定标准、文件检验、出庭作证、损伤程度、STR分型等。近年来我国司法鉴定研究热点领域围绕以上热点来展开。可见,该刊一直紧密围绕司法鉴定学的研究领域,与办刊宗旨十分吻合。
在可视化界面的Show Signature标签中可以得到,图示网络共有节点310个,连线363条,Modularity Q=0.6488。Modularity值是网络模块化评价指标,可用于评估图谱聚类效果。网络的Modularity值越大,则表示网络得到的聚类效果越好,Modularity取值区间为[0,1],当Modularity大于0.3时就意味得到的网络社团结构是显著的。故此,本文中的关键词图谱用于该刊的研究热点分析具有较高可信度。
图3中,“司法鉴定”作为整个网络中心性最高的节点,出现频次414。从定义角度来讲,司法鉴定是指在诉讼活动中鉴定人运用科学技术或者专门知识对诉讼涉及的专门性问题进行鉴别和判断并提供鉴定意见的活动[8]。按图谱显示,它是连接司法鉴定机构、司法鉴定人以及法医鉴定、司法会计鉴定等细化分类的源头与关键。从该节点出发,图谱向右展开,显示出司法鉴定领域的研究热点。
图3 关键词图谱
除“司法鉴定”以外,中心性最高的节点是“鉴定意见”(原称“鉴定结论”)。鉴定意见代表了对此种证据在诉讼中的地位及效力的研究。作为中国司法制度的有机组成部分,司法鉴定制度也一直处于改革进程之中[9]。我国原有的“鉴定结论”源于大陆法系职权主义模式下的鉴定人制度,2012年新《刑事诉讼法》将“鉴定结论”修改为“鉴定意见”,虽然只有两字之差,但在立法的层面上纠正了司法工作人员和诉讼当事人对司法鉴定的过度依赖,因此具有重大意义。“鉴定意见”自2011年以来,一直是本学科的研究热点,对其研究主要在审查运用、采信等方面。
5.2 研究前沿分析
研究前沿定义为持续引用固定的一组基础文献的文献聚类。早在1965年,普赖斯就提出用研究前沿来描述学科研究领域的过渡本质,并指出某领域研究前沿由包含最近出现的新主题的当代文献和科学家积极引用这部分文献的集合来体现[10]。在CiteSpace中,领域研究前沿分析可利用探测词频突发增长的突现词(burst term)功能来进行,通过考察词频的时间分布,将突现词从大量的主题词中探测出来,依靠词频的变动趋势,而不仅仅是频次的高低,来确定研究的前沿领域。
从图3中可以看出,关键词会随时间的变化而变化,颜色逐渐从蓝色变为红色,进而产生不同的研究前沿主题。在CiteSpace的功能设置中,包含识别突发性关键词及其所在文献,根据突发性关键词的突现率高低,可以准确高效地定位和辨别《中国司法鉴定》研究的前沿主题。此处截取了排名前8位的关键词,得到突发性关键词按照突发强度的排序(Sortby Strength of burst)(图4)。
图4 关键词突发强度
5.3 学科整体演进趋势与发展脉络
除了进行突发性检测以外,通过设定适当阈值可得到该刊司法鉴定研究前沿领域的关键词时区分布(Time Zone)(图5)。时区分布图是将相同时间内的节点集合于相同的时区中,此处分析关键词网络,对关键词或主题而言就是它们首次出现的时间,时间序列按照从远到近的顺序排列。这种类型的视图是依据热点主题的交互关系和演进路径设计,可以清楚地看到关键词在不同年代的活跃程度,展现出各时间段的知识基础及其对应的研究前沿依序更换、逐渐演进的过程,也有助于捕获该研究领域的前沿方向。
由图5可知,2006—2016年关键词之间的连线非常密集,这说明司法鉴定学科涉及研究领域非常多,通过进一步归并、整理,对以下三大聚类作主要介绍。
5.3.1 司法鉴定学基础理论
图5 关键词时区分布图
该类别研究开始时间较早,紧密连接其他节点与聚类,是司法鉴定学研究知识来源的核心。进一步分析可发现,该聚类文献引用较多部(篇)的司法鉴定学经典论著有:《中国司法鉴定》、《司法鉴定法立法研究》、《鉴定意见争议解决机制研究》、《鉴定意见证明论》、《司法鉴定专家辅助人制度研究》等。这些文献为本学科发展奠定了坚实有力的基础。随着司法改革以及鉴定制度的更新,基础理论研究的热点主题在稳定中又增加了一些新的变化,表现出由宏观到微观、多样化的发展态势。司法鉴定援助是2015年的研究热点之一,该年司法鉴定援助业务量26441件,比上年同期增长41%,减免费用4320.18万元,比上年同期增长84.14%[11]。
“司法鉴定制度”也是传统、重点的研究领域。鉴定制度作为本学科的理论基石,自然是该刊的研究重点。与之相关的节点多涉及民事诉讼以及刑事诉讼,且这两方面的研究在2012—2014年有较高热度,这与2012年3月14日《刑事诉讼法修正案》获得人大通过、完成第二次大修、2014年12月18日《最高人民法院关于适用〈中华人民共和国民事诉讼法〉的解释》的通过密不可分。不管是刑事诉讼还是民事诉讼,对于证据地位、效力、质证认证程序规定方面均有较大改动。
5.3.2 法医学鉴定
从图谱中可以看出,法医学领域聚类中集合了较多的关键词,从亲子鉴定、人体损伤、尸体检验、道路交通事故到毒物分析、医疗损害、STR分型、伤病关系、颅脑损伤,虽然不同时间热点关键词有一定差异,但法医学领域贯穿了该刊司法鉴定学研究的近十年,而且一直在我国司法鉴定研究中占据重要比重。据司法部司法鉴定管理局网站的统计数据显示,2015年全国经司法行政机关审核登记的司法鉴定机构和司法鉴定人完成各类司法鉴定业务共计1 933 928件,按鉴定事项分类,法医类鉴定业务占到业务总量的82.34%(2015年度的统计时间周期为2015年1月1日至11月30日)[11]。结合数据可知,图谱中法医类关键词的排名结果与具体业务实践状况相符合。
5.3.3 计算机取证与电子数据
司法鉴定学科中关于电子数据的研究体现出较强的时代性特征。随着国内外网络犯罪案件的增多,司法部门越来越需要精确、智能化的取证技术来辅助工作,计算机技术逐步进入本领域研究的视野,这是该刊研究在2009—2012年涌现出较多电子证据、计算机取证、数据库等相关研究领域的直接原因。同时,这些连线一直延伸至2016年,该研究方向十分活跃。姚伟、沙晶的《Android智能手机的取证》以及危蓉、麦永浩的《锁屏Android智能手机取证方法的研究》等都探讨了该领域的热点技术。此外,由于国内外多家公司、科研机构一直在开展电子证据检验技术的研究工作,并开发检验工具,如美国Guidance Software公司的Encase、AccessData公司的FTK、德国X-ways公司的X-Ways Forensics以及国内厦门美亚公司开发的取证大师、上海磐石数码的Safe-Analyzer取证系统,充分利用这些工具对于高效地提取证据、打击网络犯罪行为具有重要意义。今后,取证的自动化、规范化将引领该学科的研究热点。
通过对图谱进行分析以及对图谱中生成的文献原文的研读,人们可以发现司法鉴定研究是一个多学科交叉的领域,涉及到法学、物证技术学、法医学、计算机学、司法会计学等多个方面,并且随着学科发展的深化、权威学者及经典文献的涌现,各领域之间的渗透交流也更加丰富。司法鉴定学科演进过程中应该逐渐提升高影响力作者以及机构数量,进而从学科内部驱动的角度提升学科整体研究水平和交流层次。
6 结语
本文以文献计量学中的共词分析为理论基础,利用信息可视化的前沿技术——知识图谱,以2006—2016年《中国司法鉴定》的刊载文献为数据来源进行研究。通过对图谱进行深入解读,运用作者分析、机构分析查找该刊刊发论文的研究主体;运用关键词分析法呈现该刊司法鉴定领域的研究热点;通过突发性检测及时区图,描绘该刊司法鉴定研究领域的演进趋势。
综上得知,《中国司法鉴定》始终关注学术研究的前沿领域,及时敏锐地捕捉实践中的先进经验、迫切需要探讨的问题,在各个历史年代均刊发了一批具有预见性、导向性的学术力作。作为2008年入选北京大学《中文核心期刊要目总览》收录的期刊之一,据中国知网(CNKI)的数据显示,自2001年创刊以来,《中国司法鉴定》总下载量为417 461,总被引量9 300[12],其上刊载的文章全面反映司法鉴定领域科学技术和制度建设等综合内容,学术研究水平较高、研究观点新颖,在推进我国司法鉴定学科建设和指导司法鉴定实践中起着重要作用。
随着司法改革的深入,司法鉴定研究是近年来社会各界关注的焦点之一。在数据挖掘的基础上,对国内司法鉴定的权威期刊《中国司法鉴定》刊载文献进行可视化分析是笔者的一个全新尝试,鲜有成形的经验和模式可供借鉴。本文在数据收集、获取、处理、统计方面花费了大量时间和精力,力求用科学化的数字,形象的图谱来展示该刊研究的现状,是一次比较系统地用知识图谱的方法梳理该刊司法鉴定研究热点与演进趋势的过程。利用知识图谱对期刊进行分析只是其应用的一个方面,继续探寻司法鉴定学与计算机学交叉领域的应用将是今后的重要研究方向。
[1]秦长江,侯汉清.知识图谱——信息管理与知识管理的新领域[J].大学图书馆学报,2009,(1):30-37.
[2]Chen,C.Searchingforintellectual turningpoints:Progressive Knowledge DomainVisualization[J].Processings of the National Academy of Sciences of the United States of American,2004,101(Sipp1.1):5303-5310.
[3]赵健,孙畅.科学知识图谱对《情报科学》杂志的全景扫描[J].情报科学,2013,(7):78-82.
[4]Chen,C.CiteSpace:Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature[J]. Journal of the American Society for Information Science and Technology,2006,(3):359-377.
[5]陈悦,陈超美,胡志刚,等.引文空间分析原理与应用[M].北京:科学出版社,2014:12.
[6]赵健,薛明.基于知识图谱的《图书馆建设》分析与评介[J].河北科技图苑,2013,(3):43-46.
[7]姜春林,杜维滨,李江波,等.学术期刊网络结构的文献计量及可视化分析[J].情报杂志,2009,(3):78-84.
[8]杜志淳.司法鉴定概论[M].第2版.北京:法律出版社,2012:4.
[9]陈瑞华.鉴定意见的审查判断问题[J].中国司法鉴定,2011,(5):1-6.
[10]Price D D.Networks of Scientific Papers[J].Science,1965,(149):510-515.
[11]司法部司法鉴定管理局官网2015年度全国司法鉴定情况统计分析[DB/OL].(2016-05-05)[2016-12-02].http: //www.moj.gov.cn/Judicial_identification/c ontent/2016-03/ 21/content_6532 800_4.htm.
[12]中国司法鉴定之检索.中国知网[DB/OL].(2016-11-10)[2016-12-02].http://navi.cnki.net/KNavi/JournalDetail? pcode=CJFD&pykm=SFJD.
(本文编辑:杜志淳)
DF794;TP182
B
10.3969/j.issn.1671-2072.2017.01.013
1671-2072-(2017)01-0085-08
突发强度最高的是“专家辅助人”,突变率达6.4673,突发年份为2013—2016年,表明2012年新《刑事诉讼法》第192条增设了“有专门知识的人出庭”相关规定以后,该方向受到研究者的广泛关注。在庭审中,法官、当事人及其辩护人、诉讼代理人因缺乏专业知识对鉴定意见进行质疑难免流于形式,有专门知识的人的出现正是与鉴定人对阵的一个团队,在双方互相牵制下,更有利于尊重和保障人权的实现。
2016-12-12
王雅兰(1993—),女,硕士研究生,主要从事计算机声像资料鉴定研究。E-mail:wylyonina@126.com。
朱尚明(1969—),男,教授,硕士研究生导师,主要从事司法鉴定、计算机网络、信息安全研究。
E-mail:zhusm@ecupl.edu.cn。