APP下载

基于可视化和内容分析的我国中医古籍数字化研究现状与展望

2020-11-30周树斌周宇婷施州州李永卉

图书情报研究 2020年4期
关键词:古籍数据挖掘数据库

周树斌 周宇婷 施州州 李永卉,2

(1. 江苏大学科技信息研究所 镇江 212013;2. 江苏大学图书馆 镇江 212013)

1 引言

古籍作为中华文化传承的重要载体之一,其价值日渐受到重视,作为中华古籍资源重要组成部分的中医古籍,是我国重要的文化资源,也是中华文明贡献给世界医学界的璀璨明珠。中医古籍是中医理论知识的来源[1],是中医传承中不可或缺的载体。虽然国内古籍数字化的研究与实践早在上世纪七八十年代就已经开始[2],取得了一定的成就,也推进了传统中医古籍的整理与研究。但是近年来,人们对中医古籍文献资源的加工、组织与服务深度的需求加强,对知识本体数字化保存和应用的要求越来越高。在文化与科技融合被高度提倡的当下,用文化引领科技发展,用科技赋能文化前进已然是大势所趋,大数据等新兴科学技术手段的广泛应用,为中医古籍文献的知识挖掘和研究提供了便捷可靠的工具支撑。准确把握中医古籍数字化的现状和发展趋势,对中医学、中药学及古籍数字化研究都有一定的价值。为理清该领域的发展现状,本文基于文献计量学理论,结合共词分析方法、聚类分析方法以及知识图谱方法对中国知网(CNKI)中医古籍数字化相关文献进行可视化分析,定量把握当前数字人文环境下,国内中医古籍数字化的研究现状和热点问题,并就今后的发展作出展望,以期从定性的层面为相关领域研究提供参考。

2 数据来源与研究方法

2.1 数据来源

以CNKI 的中国学术期刊(网络版)全文数据库为数据来源,对中医古籍数字化相关论文进行检索。以SU=“中医古籍”*(“数据库“+”数字化“+”数据”)为检索式进行专业检索,截止2019年11月29日共检得301 条结果,其中存在一定数量的无关文献。为保证数据的真实与可靠性对检索结果进行逐条浏览筛选以进行去重和剔除各类无关条目,最终得到246 篇论文作为可靠的数据来源文献。

2.2 研究方法

本研究主要采用共词分析[3]、聚类分析[4]、知识图谱[5]等方法,对关键词与发文机构进行分析,从而把握当前国内中医古籍数字化研究现状与热点。首先,对来源文献的关键词进行统计分析,包括借助文献题录信息统计分析工具软件SATI3.2、统计分析软件SPSS 并辅以人工的手段来实现提取高频关键词进行共词分析和聚类分析,借助科学知识图谱绘制工具VOS viewer 对总体关键词进行网络可视化分析和聚类密度分析,将总体关键词统计分析得出的结果与提取分析高频关键词所得结果进行对比印证;其次,通过可视化文献分析软件Citespace 可视化的方法对研究机构进行分析,借助地理信息系统软件QGIS3.6 对发文机构的地理信息进行可视化分析。通过多种方法和软件的结合,多维度全方位的以定量的方法对当前国内中医古籍数字化领域的研究现状进行呈现,最终从定性的角度进行分析并作出展望。

3 可视化分析

3.1 关键词共词分析

3.1.1 高频关键词预处理 使用SATI3.2 对确定的246 篇论文的关键词进行词频统计,共计关键词507 个,累计词频为986 次。中医古籍数字化研究领域尚处发展阶段,还未成熟,故数据量较小,根据Donohue 高低频词分界公式不能够很好的选取本研究领域的高频关键词[6],本文采用孙清兰研究的高频低频词分界标准N=(D 是指不同的关键词个数)[7],来筛选高频关键词。D为507,代入公式后N 约等于23,故可取约23 个关键词作为高频关键词。由于统计样本较小,将频次大于等于2 的关键词设为选词范围。对关键词进行处理,删除与研究热点不相关的词,如“发展、趋势、述评、应用”等,同时对近义词进行合并整理,最终确定词频大于5 的24 个规范高频关键词。这24 个规范关键词词频总和为507占总词频的50.4%,超过知识图谱绘制规定的27%,满足统计分析的标准,表1为高频关键词和词频[8]。

表1 高频关键词

3.1.2 高频关键词相异矩阵 对上述规范化的高频关键词进行统计,使用SATI3.2 可直接生成共现矩阵、相似矩阵、相异矩阵等多种形式的关键词矩阵。为保证研究的严谨性与科学性,方便后续统计,使用SATI3.2 构建24*24 的高频关键词相异矩阵(表2)进行分析。相异矩阵中高频词交叉线的数值越大,说明高频词之间的关联性越小,反之关联性则越大[9]。

表2 高频关键词相异矩阵(部分)

3.2 高频关键词聚类分析

聚类分析方法主要是对多变量(关键词)进行分类,在没有先验知识的基础上,以变量间关系远近为标准,得出分类结果[10]。将获得的相异矩阵导入SPSS,在“系统聚类”中选择“Ward 法”和“Euclidean 距离”,通过聚类分析高频关键词得到树状图如图1所示。对图1的聚类结果进行细粒度的划分,除去“中医古籍”及“古籍数字化”两个关键词所代表的主体研究领域外,将其余22 个关键词聚类后分为五个类团,第一类团包含:图书馆、古籍保护;第二类团包含:地方医籍、数字化技术;第三类团包含:本体、词表、知识服务、中医、知识库;第四类团包含:数据挖掘、医案;余下部分为第五类团,由于其关键词较多,将其进一步细分为四个子类团,分别为:(1)古籍整理、利用;(2)古籍数据库、黄帝内经、中医文献、检索;(3)症候、证治规律;(4)数字化建设、中医信息、元数据。通过对五个类团关键词内在属性的把握将五个类团依次概括为图书馆与古籍保护研究、地方医籍与数字化技术研究、中医古籍数字化领域本体与知识服务研究、中医医案的数据挖掘研究、中医古籍整理与数据库构建研究(包括古籍整理与利用研究、中医古籍数据库建设研究、症候与治证规律研究和元数据方法研究)。

图1 中医古籍数字化领域研究高频关键词聚类分析树状图

3.3 总体关键词知识图谱分析

前两节主要是基于高频关键词的分析来把握中医古籍数字化的研究热点脉络,本节则从全局出发通过对246 篇文献的总体关键词进行分析,以更全面的角度把握研究热点和现状,与共词分析和聚类分析得出的结果相印证,提高研究结果的准确性和可信度。利用科学知识图谱绘制工具VOS viewer 构建知识图谱,VOS viewer 以色彩差异性来表示各聚类的重要性差异,以密度视图来揭示学科领域研究的重点与热点。在关键词共现图中,节点被分为不同聚类族,各节点颜色和其所属聚类族一致,这样就可以快速地发现和观察各聚类族[11]。通过VOS viewer 的关键词密度视图可直观地反映各高频词间的共现频次密度,若两个关键词共现频次越高,其联系则越紧密,相关性更高,这样具有高度相关性的高频词就被聚合起来,从而形成一个类团。在关键词密度视图里,各节点大小表示两关键词间的耦合强度,节点间距反映对象间的相似度,节点间距越小说明相似度越高,反之相似性越低[12]。

通过VOS viewer 对中医古籍数字化领域关键词进行统计和聚类分析,设定共现关系强度规范化方式为LinLog/modularity,分辨参数、聚类成员最少数目分别为1 和5,形成中医古籍数字化领域关键词共现网络可视化图谱和关键词共现聚类密度可视化图谱如图2所示。从图谱中可以看到,以“中医古籍”和“古籍数字化”即以“中医古籍数字化”为核心形成了多个重要的研究方向,通过归纳发现其中中医古籍数字化建设、中医文献元数据标引与检索、中医领域本体及中医古籍知识库和知识服务、中医信息的数据管理和数据检索、医案数据挖掘、地方及特色中医典籍的数字化、图书馆和古籍保护等研究区域较为瞩目,同时,各研究方向也各自形成了相关性的研究热点,这与3.2 的分析结果基本吻合,这些研究热点共同深化了对中医古籍数字化领域的相关研究,推进了国内中医古籍数字化领域研究基本范式格局的形成。

图2 关键词共现网络及聚类密度知识图谱

3.4 研究机构分析

通过分析文献作者的所属机构,可了解国内中医古籍数字化领域研究的核心机构[13]。使用Citespace 进行分析,得到国内中医古籍数字化研究的核心机构如图3所示。通过对图3进行分析可以看出,中国中医科学院是最主要的研究机构,其下属机构中国中医科学院中医药信息研究所在整个核心机构中占据主导,中国中医科学院中医医史文献研究所也很突出。此外,国内中医药院校的图书馆或研究所等图书情报机构也是领域内主要的研究机构,其中南京中医药大学图书馆表现最为突出。通过分析核心机构间的合作,可发现各机构的合作目前仍停留在地缘性的合作范畴之内,这说明领域内的研究相对缺乏合作,研究相对比较分散。

图3 核心机构共现网络图

对每篇论文的发文机构进行定位并统计其地理经纬度坐标,将地理数据导入QGIS3.6 中进行地理信息可视化展示如图4所示,左图为研究机构分布图,右图为相应的热力图。通过图4左图可以较为直观观察在全国范围内各地区机构在中医古籍数字化领域的发文情况,不难看出,相关研究机构多是集中在东部地图,西部地区明显远远落后于东部地区,而东部地区经济发展水平明显优于西部地区,因此在一定程度上可以认为地区研究能力与地区经济发展水平是相适应的。以发文数量作为热力的计算依据,通过图4右侧的热力图可以更为直观地看出,北京及江苏地区是最主要的研究区域,其中北京地区是最重要的核心地区,这是因为领域内的主导机构中国中医科学院位于北京,具有其它地区所不能比拟的发文量达上百篇,而排名第二的江苏地区仅40 篇。

图4 研究机构地区分布和热力图

4 研究内容分析

4.1 中医古籍资源元数据标准研究

中医古籍数字化研究应聚焦中医古籍资源本身。中医古籍数字化所面向的古籍资源,从内容上来看,包含了本草医药古籍、养生古籍、中医食疗古籍、气功古籍、古天文医学古籍、以及针灸古籍等多种内容形式的中医古籍;除传统汉医古籍外,还囊括了各少数民族医药古籍,如藏医古籍、回医古籍、云南少数民族医药古籍、傣医古籍、维吾尔族医药古籍、蒙医药古籍、贵州民族古籍等;同时兼具地方中医古籍研究特色,如巴蜀地区医学古籍、新安医学古籍、岭南医学古籍、河东医学古籍、汉喃医学古籍等。中医古籍种类繁多,内涵丰富,尤其地区医籍,当前西部地区的中医古籍发掘潜力巨大,对中医古籍资源本身进行细粒度的研究必然会成为当前的研究热点。

鉴于中医古籍资源的丰富性、多样性,制定统一的元数据标准十分必要。人们要对海量的古籍文献数据进行分析、判别与选取,良好的数据规范是人们可以充分利用数据的前提,建立中医古籍数字化产品质量评价标准、文本格式标准和元数据规范在中医古籍数字化领域的重要性也就不言而喻。如何对元数据进行标引决定了如何对其进行检索和利用,越来越多的研究者开始关注文献元数据标引与著录规则如何适应数字化发展问题[14],如丁侃等探讨了中医古籍图像标引的基本方案,分析探讨了古籍信息、版本信息和图像本体三种元数据[15];赵阳等探讨了中医文献元数据的设计前提,对中医药文献元数据的著录对象进行界定并对中医文献元数据的必要性进行了分析[16];刘梨等对中医古籍四大经典中医护理文献进行了整理并建立了相应的数据库平台[17]。

4.2 中医古籍的知识组织研究

近年来,本体建模、资源描述框架RDF 等语义网技术的研究形成了热潮[18],这些技术方法可以从知识层面对中医古籍资源进行有效地组织,为该领域内的知识组织提供强有力的工具支撑。当前中医古籍的知识组织研究多是尝试构建领域本体,进行中医古籍数字资源语义关联方面的探索,如丁侃等提出构建中医文献与人物本体,将中医学术传承的脉络方案进行关联,利用本体对异构中医药古籍资源的元数据方案统一进行语义化处理,实现平台间的资源聚合[19];李明等使用领域本体进行中医古籍数据库的语义扩展,从而提高中医古籍文献查全率和查准率[20]。这些研究在一定程度上填补了国内中医古籍本体构建和语义关联研究的空白,拓展了领域内的研究方法,具有一定的现实意义。

4.3 数据挖掘技术在中医古籍中的应用研究

利用数据挖掘技术对中医古籍的价值可以进行充分揭示。随着大数据技术的日渐成熟和广泛应用,传统的计算机技术,如数据挖掘技术等在人文科学研究领域得到了比较广泛的应用。一方面,数据挖掘技术为中医古籍的内容挖掘提供了方法上的拓展和创新,还可以从海量的数据中发掘蕴含的规律和模式。另一方面,数据挖掘技术本身也伴随着大数据技术如机器学习等技术的发展不断延伸进步,相关算法日渐成熟。目前相关研究主要包括通过数据挖掘技术分析中医古籍文献中的用药规律、对病名源流进行考辨、研究药方组配等。例如,雷亚玲等通过建立古籍文献及名老中医郁病诊治数据库,运用数据挖掘技术对古籍文献及名老中医经验的郁病用药规律进行挖掘和分析[21];邢益涛使用数据挖掘技术对中医古籍的不育症病名源流进行考辨[22];谭子虎等通过对中医古籍的数据挖掘进行了对痉病病名源流的考辨[23];陈兹满等运用数据挖掘技术对中医古籍眼科点眼方剂的用药规律进行了分析[24];陈广坤等基于对中医古籍方剂的数据挖掘进行了养发育发药物组配研究[25]。

4.4 中医古籍数据库和知识库的构建研究

中医古籍数据库是中医古籍在数字时代的重要载体,也是当代使用中医古籍的重要途径,已取得一定的成绩[26]。当前国内中医古籍数据库的规模种类已较为丰富,有综合数据库如中国基本古籍库、龙语翰堂典籍数据库、文渊阁四库全书电子版、爱如生系列数据库、国学宝典等综合性数据库;有专门数据库如中华医典、中国中医古籍总目、金图国际中医药古籍资料库、黄帝内经古籍数据库等专门数据库;有以病症进行分类的病症专题数据库,如痹症、肾病、肺病、冠心病等病症的专题数据库;还有医学人物的专题数据库,如华佗、孙思邈等的专门数据库;更有打造民族特色、地方特色的数据库及名老中医文献数据库等。根据用户需求的多样化,已有的数字平台大多可以网页端、移动端、微信端并举,如经典古籍库,作为全球首个大型随身古籍库,涵盖经史子集各部1 165 种书,收录古籍均为经典权威点校本,并提供全文检索和在线阅读,以及联机字典、纪年换算等工具。如今,中医古籍数据库的构建日趋注重对知识服务的提供,由数据库向知识库方向转变的趋势也就越发凸显。

5 存在的问题与展望

美国学者John Unsworth 教授认为,数字人文改变了人文知识的发现、标注、比较、引用、取样、阐述与呈现,从而实现人文研究、教学升级和创新发展[27]。但是,数字人文的关键是以“数字”辅助“人文”,而不是以“数字”替代“人文”[28]。因此,必须充分发挥数字技术在人文领域研究的工具性作用,从数字时代出发考虑重构人文知识脉络和内容,从全新的技术角度去构建当代中医知识系统和认知方式。如今中医古籍研究迎来了新的发展空间,新兴的数字技术可以满足人们对中医古籍文献资源的加工、组织与服务的深度需求,海量且十分宝贵的中医古籍可以得到更好的开发利用,中医学、中药学研究应用的深度和广度也必然在此背景下不断延伸。

5.1 多元化的中医古籍元数据标准规范趋于统一

尽管学界已对中医古籍元数据的标准进行了一定探讨,但尚未进行有效的分类与标引,各机构间的研究多独立分散,缺乏真正统一的元数据标准和规范。目前,大多数中医古籍数据仍处于非结构化的无组织状态,导致了丰富的资源不能被很好的利用。因此,结构化的数据和统一的标准规范必然是今后的发展方向。随着科学技术的发展与完善,古籍整理研究范式也在发生重大变革,版本识别、目录、校勘、训诂等传统研究方法与手段具有一定的局限性。在当前环境下,对中医古籍进行科学规范的整理是更好利用中医古籍的关键所在,今后关于中医古籍元数据标引和检索的研究还会不断发展,多元化的元数据标准规范逐渐趋于统一,相信最终会形成真正可以为各界所认可和遵循的标准规范,为构建中医古籍资源结构化知识体系提供支撑。

5.2 以语义网技术驱动中医古籍领域内的知识组织

当前中医古籍领域内知识组织研究通常是借鉴其他领域内本体和语义关联的模型,尚未形成一个较为成熟的中医古籍资源语义描述规范。在语义发布层面,中医古籍关联数据集和本体建模大多仍是以手工的方式完成,这就给在大数据环境下中医古籍数据的处理带来了巨大的挑战;在研究内容层面,仍停留在对中医古籍书目进行研究的层面,未能实现对内部知识结构的充分揭示。以语义网技术进一步驱动中医古籍领域内的知识组织已成为领域内的迫切需要,今后的发展方向应是由粗粒度的文献研究层面向细粒度的知识单元层面转变,将语义网技术应用到中医古籍文献内容层面的研究与开发中,对全文内容进行知识关联组织,从而充分揭示中医古籍的内涵,降低使用门槛。通过语义网技术整合异构中医古籍数字资源,链接领域内的数据孤岛,避免资源的重复建设,实现领域内的知识聚合,为中医古籍的知识发现提供前提和保障,进一步提高资源的开放共享。

5.3 利用数据挖掘技术深化对中医古籍的内容揭示

现阶段的研究对数据挖掘技术在中医方剂等领域进行了有益的探索,但还存在着一定程度的不足。一方面,中医古籍由于年代和地域差异性,导致数据中普遍存在词语混淆现象,面对这样的情况,有时并不能准确挖掘出所需信息;另一方面,当前数据挖掘技术在中医古籍研究的应用上多是范围上的定位,而非真正意义上的精确定位。因此,在中医古籍研究中,数据挖掘技术在算法层面有待进一步改进,数据挖掘技术与中医古籍研究也有待进一步融合提高。随着技术的不断进步,数据挖掘技术参与中医古籍数字化必将拓展研究的深度与广度,激发海量数据中蕴含的潜在价值,为中医古籍数字资源的智能化变革提供强力的技术支撑,成为今后发展过程中一项极为重要的辅助技术工具。

5.4 打造以知识服务为导向的中医古籍知识库平台

目前中医古籍数据库开发种类多样,但大多仍停留文献服务层面而非知识服务层面,缺乏深层次的知识挖掘与知识分析,难以形成领域内数据和知识的共享,对学科研究与发展的影响有一定局限性。打造以知识服务为导向的中医古籍知识库已成为领域内的现实所需,对于中医古籍数据库的使用,用户更希望直接实现对中医、中药知识的获取和利用,而非对中医文献的简单查找,故今后应以知识服务为导向,使数据库的开发向知识库方向发展。中医古籍知识库的建设需要依托于大数据技术,对多元化的资源进行知识挖掘,实现对数据从显性信息到隐形知识的提取和升华,结合本体及语义关联技术对文献内在的知识进行组织关联,辅以规范的元数据标引与检索规则,使得数据以结构化的方式呈现,从而形成规范化、系统化的知识网络体系,实现对中医古籍更为深层次的开发和利用。

6 结语

中国中医古籍数字化工作经过多年的发展,取得了令人欣喜的成绩,这些成果很大程度上改善和促进了传统的研究与应用,让中医古籍在文化传承与学术研究方面获得了更好的发展。随着时代的发展,通过引入越来越多的数字人文领域的技术方法如GIS 技术、数字感知技术、知识图谱技术、5G 技术等,可以为中医古籍研究与开发带来全新的生命与活力。

猜你喜欢

古籍数据挖掘数据库
改进支持向量机在特征数据挖掘中的智能应用
中医古籍“疒”部俗字考辨举隅
探讨人工智能与数据挖掘发展趋势
基于事故数据挖掘的AEB路口测试场景
西藏大批珍贵藏文古籍实现“云阅读”
我是古籍修复师
数据库
软件工程领域中的异常数据挖掘算法
数据库
数据库