大数据背景下我国壮药领域研究的可视化分析
2018-06-01范建华满小露梁敏钟鸣邓鑫尤剑鹏
范建华,满小露,梁敏,钟鸣,邓鑫,尤剑鹏
1.广西中医药研究院,广西 南宁 530022;2.广西中医药大学,广西 南宁 530001
广西壮族自治区壮药资源较为丰富。壮药是在壮医理论和经验指导下应用于疾病防治和卫生保健的天然药物,具有鲜明的民族性、传统性和地域性特点。已查明常用壮药有 2285种[1],民间验方、秘方 30000多条[2],至今仍是人民群众赖以防病治病、保障健康的主要卫生资源之一。本文以我国壮药研究领域为对象,梳理已经发表的相关文献发现,壮医药研究主要集中在运用关联规则方法发现壮医临床治疗气道病的用药特色和组方规律[3],采用频数分析法对壮医治疗月经病用药类别和使用频次进行统计分析,初步认识其用药特点和规律[4]。而对作者、研究机构网络关系及高频关键词的定量研究较少。本研究主要借助可视化 Ucinet的NetDraw和CiteSpace V分析软件,从作者、机构合作社会网络,高频关键词等方面探析壮药研究领域热点,揭示近十年来我国壮药研究现状和趋势,以期为该领域的后续探索提供不同的研究视角。
1 资料与方法
1.1 数据来源
通过中国学术期刊网络出版总库(CNKI)获取国内公开发表的期刊文献的题目、作者、机构、摘要、关键词等。
1.2 检索方法
检索的主题=“壮药”,用精确方式进行检索。检索时间段为2007-2016年,检索日期截止到2017年 6月 2日。将检出文献分别以 endnote和Refworks格式导出。
1.3 纳入排除标准
纳入以壮医药为研究对象的文献。排除新闻、指南、摘要,论文中没有标题、作者、发文机构、关键词及摘要等类型的文献。重复发表的文献只取最早发表的一篇,必要时查看全文。
1.4 研究方法
知识图谱也被称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域,为学科研究提供切实的、有价值的参考。本文利用 CNKI数据库自带的数据分析功能(endnote和Refworks)将检索含有文献标题、作者、机构、关键词、发表年份等题录数据以endnote格式导入书目共现分析系统,进行统计分析。对作者、机构、高频关键词分别构建共现矩阵,把共现矩阵导入 Ucinet软件的 NetDraw,形成以##h为扩展名的文件,最后绘制出相关共现网络图谱。而将检索到的题录数据以Refworks格式导入CiteSpace Ⅴ,Time Slicing=(From2007 To 2016)(#Years Per Slice 1);Term Source全部勾选:即Title(标题)、Abstract(摘要)、Author Keywords(DE)(作者关键词)、Keywords Plus(ID)(扩展关键词);Node勾选 Keyword(关键词);Selection Criteria为每个时间片前 50个高频或高被引节点。
2 结果
初次检索获得 668篇文献,根据纳入排除标准,最终得到620篇有效文献,
2.1 文献发表年代分布
将2007-2016年间国内壮药研究文献620篇导入Excel 2007版中,得到2007-2016年壮药研究文献发表年代分布图(见图1)。2007-2010年度发文量均在 50篇/年以下,在国家和自治区有关中医药、壮瑶医药一系列政策引导下,壮药研究逐渐受到相关大学、科研院所、医院的重视,从2011年开始,发文量在2012、2013年出现爆发式增长,2014年发文量有所回落,2015、2016年的发文量又大幅增长。
2.2 高频作者合作度及作者中介中心性
随着科学研究的深入,科学创新难度的逐渐提高,学科交叉和科研人员之间的合作不断增多,科学研究工作既需要优秀的科研带头人,也需要一个协作的团队,科研论文合著现象已经非常普遍[5]。因此对论文作者合作度社会关系进行统计时,单独考虑以第一作者进行科学评价已具有局限性。为了更好地体现论文作者合作度特征,选用作者均一统计法[6]能较全面地反映合著论文作者的分布情况。620篇壮药研究论文一共有 1148位作者参与撰写,本研究将93位发文频次≥5篇的作者,借助Ucinet的NetDraw可视化软件,导入生成好的93×93共现矩阵,绘制出壮药研究中高频作者共现网络图(见图2)。图中每个节点代表1位作者,用正方形蓝色节点表示,节点间的连线表示 2位作者间存在合作关系。节点越大说明该作者在合作网络中具有越高的中心度,即有较多的作者与该作者建立了合作关系。节点间的连线越粗表明该作者对之间的合作关系越紧密,稳定性越高。
图1 2007-2016年CNKI数据库中620篇壮药研究文献年代分布情况
图2 2007-2016年CNKI数据库中93位发文频次≥5篇的作者合作网络图
为了反映作者合作度变化,把2007-2016年分成 2007-2011年(第一阶段,共发文 227篇)和2012-2016年(第二阶段,共发文 393篇)2个阶段(见表1)。从表1可知,每篇文献由 1位或2位作者完成的比例第二阶段比第一阶段明显减少。2个阶段中,每篇文献由 3位作者共同完成的比例变化不大,而每篇文献由4~8位作者共同完成的比例第二阶段比第一阶段明显增加。
中介中心性是社会网络分析中的重点之一,反映行动者在其社会网络中所处的地位、媒介能力及影响力,中介中心性测量的是行动者对资源控制的程度,一个行动者在网络中的中介中心性值越高,就有越多的行动者联络时必须通过他发生联系[7]。利用 Ucinet对高频作者进行中介中心性测度,均取排名前 10的作者(见表2)。根据图2和表2可知,在壮药研究领域已形成以广西中医药大学的林辰、庞宇舟、韦松基、方刚、蔡毅和广西民族医药研究院滕红丽等为核心的科研团队。
表1 620篇壮药研究文献不同时间段每篇文献的作者数量及发文篇数
图2显示,93位作者中有 84位处于同一个合作网里,占90.32%(84/93),而其中只有4位作者属于广西壮族自治区以外的单位。在壮药研究领域高频作者中广西作者占95.70%(89/93),而在作者合作网络中的中介中心性>7的作者有林辰、余胜民、韦松基等 10人,而中介中心性>3的作者有22人。研究表明,他们是合著者中的核心人物,拥有更多的学术资源,在信息流中占有重要地位,是与其他作者联系的关键人物。通过上述计算得知,在国内壮药研究领域位于结构洞位置、承担桥梁作用的作者较多,对促进我国壮药研究学科均衡发展起到积极作用。
表2 620篇壮药研究文献中前10位高频作者及中介中心性测度
2.3 机构合作度分析
科研合作在知识传播中起着重要作用。机构协作网络是指为研究一个学术领域的发展变化,由相关大学、研究机构和医院建立的相互联系的网络。在这个网络中,以机构为节点,以节点之间的联线为边。如果 2个机构的研究人员共同撰写 1篇论文,他们是相互关连的。本次研究的 620篇壮药研究论文一共有179个机构参与撰写。
从表3可知,每篇文献由 1家机构完成的比例第二阶段比第一阶段明显减少,由2~3家机构完成的比例第二阶段比第一阶段明显增加,说明壮药研究领域机构合作意愿增加。
表3 620篇壮药研究文献不同时间段每篇文献的机构数量及发文篇数
将其中发文≥2篇的发文机构 62家,借助Ucinet的NetDraw可视化软件导入生成好的62×62共现矩阵,绘制出壮药研究中发文机构共现网络图(见图3)。从图3可知,62家发文机构中有9家是独立发文,广西的发文机构数为 47个,占75.81%(47/62)。目前我国壮药研究领域形成巨大机构合作群,以广西中医药大学、广西民族医药研究院、广西壮医医院、广西医科大学等为核心,占据机构网络的核心地位,说明在壮药研究领域广西的研究机构占主导地位。
图3 2007-2016年CNKI数据库中62家发文频次≥2篇的机构合作网络图
2.4 文献研究主题与基金分布
将壮药研究文献分成 2007-2011年和 2012-2016年 2个时间段,按不同研究主题进行分类统计,结果见表4、表5。分析统计在2个时间段内各主题与基金对应支持的关系可以发现,制剂工艺对比增长 100%,生药鉴定对比增长 49.49%,高等教育对比增长48.57%,临床观察对比增长28.31%,药理研究对比增长24.62%。
表4 2007-2011年CNKI数据库中壮药研究文献的研究主题与基金分布
表5 2012-2016年CNKI数据库中壮药研究文献的研究主题与基金分布
2.5 高频关键词分析
关键词在一篇论文中虽然只有3~8个,却是对论文主题的高度概括和提炼,因此对论文的关键词或主题词进行分析,频次高的关键词和主题词即可被用来判定一个研究领域的热点问题[8-9]。词频统计法是利用关键词的出现频次高低来确定某一领域研究热点和发展动向,利用词频进行情报分析研究,可以对某些问题进行简单、明了的分析预测,且结论较为可靠[10]。在导入下载标题之前,先对题录中关键词的部分近义词、同义词进行相应的归并与规范化处理,去除最高关键词“壮药”,获得1309个有效关键词,将频次出现≥4次的71个关键词,借助 Ucinet的 NetDraw可视化软件,导入生成好的71×71共现矩阵,绘制出壮药研究领域关键词共现网络图(见图4)。节点之间的连线为矩阵中的共现关系,连线的粗细表示关键词之间的紧密度,节点大小与其在共现网络地位、关键词频次成正比,节点越大,表示地位越高、越重要。
2.6 壮药研究突现词时间分区图
通过识别和跟踪学科领域的研究前沿,研究人员可以了解新出现的理论趋势和新出现的主题,然后预测学科未来的发展方向。通过Citespace软件中的突现词探测算法,可以从题目、摘要、关键词、标识符中提取突变的专业术语,将其中频次变化率高的词从大量的关键词中探测出来,从而确定某学科的研究前沿[11]。将检索到的题录数据以 Refworks格式导入 CiteSpace Ⅴ,在 Article Labeling项选择By Citation模式,阈值设定为 4、6、30,生成突现词图谱,如图5所示。从图中可看出壮药领域热点词聚集在2007-2011年期间,图中圆环代表壮药领域研究热点,圆环越大,关注度越大。线条表示其演化过程,图形下方代表演变年份,从图5较为直观地展示“壮药领域”研究前沿术语演化历程,显示壮药研究热点主题演化轨道。
图4 2007-2016年CNKI数据库中壮药研究文献的71高频关键词(≥4次)共现网络图
图5 2012-2016年CNKI数据库中壮药研究突现词时间分区图谱
3 讨论
壮药是祖国传统医学的重要组成部分,本研究利用Ucinet和CiteSpace V可视化软件,对近十年壮药研究领域的作者、机构合作度及高频关键词,绘制作者、机构、高频关键词网络图谱和壮药研究时间分区图谱,政府基金对研究主题支持对比变化,对壮药研究的前沿领域和发展趋势进行分析。学科主题演化是一个复杂的过程,存在多种变量,以单一类型可视化图谱进行分析会有局限性,把不同的可视化分析工具Ucinet和Citespace综合利用,可以揭示某学科知识结构的演进和学科研究热点,有学者对比Ucinet和Citespace软件在主题演化方面的优劣[12],发现 Ucinet可以通过节点、连线展示词间关系,发现核心和边缘主题词,但学科主题演化趋势展示不足;Citespace则美观、色彩丰富,可以展示主题时间演化趋势,而主题词间关系及其内部各主题的权重不能很好的展现。
近十年来,在壮药研究领域高频作者中广西的作者占 95.7%(89/93),研究机构占 75.81%(47/62),均占主导地位,也占据网络的核心地位,学者们围绕核心人物形成了相对稳定的群体,但在一定程度上制约了壮药研究的发展。因此,壮药研究领域要加强同国内外著名的中医药研究机构的科研合作,提升合作水平和成果质量。“合作规模越大,论文被引次数越高”在我国医学科研人员在 SCI/SSCI收录期刊上发表的论文得到证实。作者数、机构数和国家数的增多均会导致论文影响力的升高。合作模式对论文影响力的促进作用按照由大到小的顺序依次为国际合作、多机构合作和多作者合作[13]。
从各级政府部门(基金)对壮药研究主题支持力度的变化,对比 2个时间段在国家级基金项目中以制剂工艺(33.33%)、成分分析(32.14%)、理论研究(7.14%)、临床观察(5.45%)获得支持较多,增长幅度较快。综合国家、省部和地市三级基金支持,从 2个阶段主题数统计结果对比来看,增长排前五位分别是制剂工艺、生药鉴定、高等教育、临床观察和药理研究,质量标准前后五年对比基金的支持力度均保持在100%。
综合壮药研究关键词共现网络图和突现词时间分区图来看,2007-2011年主要热点词汇多集中在壮医药、临床观察、HPLC、药线点灸、薄层色谱法、化学成分、药理作用、提取工艺、质量标准等。2008年 10月出版《广西壮族自治区壮药质量标准第一卷(2008年版)》共收录 164种壮药标准[14],2011年 12月出版《广西壮族自治区壮药质量标准第二卷(2011年版)》共收录 211种壮药标准[15],相对于有记载的2285种壮药,可以预见未来在相当长的时期内壮药质量标准一定是壮药研究的热点和发展方向。随着时间推移,壮药研究热点词汇逐渐向质量控制、急性肝损伤、腰肌劳损、疗效评价、鲫鱼胆、小鼠、壮药香花护乳凝胶剂等转移,预示着壮药研究在注重疗效评价基础上,加强质量控制,发展新剂型[16]。
4 小结
运用大数据可视化分析方法,将复杂的数据、信息绘制成多维视觉的图形呈现是当前的研究热点。本文采用Ucinet和CiteSpace V可视化软件,从三维立体角度,展现了壮药研究文献作者合作、机构合作、关键词共现网络图和突现词时间分区图谱的社会关系,其结果直观清晰,可视性更强。研究表明,利用Ucinet和CiteSpace V软件,在高频关键词社会网络图谱和突现词时间分区图谱探究壮药研究热点和发展前沿时,结果基本相同。采用不同的可视化软件工具,对相关结果进行对比分析,有助于提高分析效果和准确性,从不同的研究视角为今后的壮药研究提供参考。
[1] 滕红丽,梅之南.中国壮药资源名录[M].北京:中医古籍出版社,2014:12.
[2] 钟鸣,容小翔.壮药理论与现代研究[M].南宁:广西科技出版社,2012:26.
[3] 庞宇舟,蒋祖玲,宋宁,等.基于关联规则的壮医气道病用药组方规律研究[J].中国中医基础医学杂志,2013,19(10):1190,1193.
[4] 杨美春,尤昭玲,方刚.月经病的壮医用药特色研究[J].中华中医药杂志,2010,25(11):1759-1761.
[5] 范建华,梁敏,陈明明,等.我国缺血缺氧性脑损伤幼鼠研究文献作者合作度分析[J].中华医学图书情报杂志,2016,25(5):58-62.
[6] 肖慎华.合著论文作者计量方法研究[J].农业图书情报学刊,2013,25(12):65-67.
[7] 李林,李秀霞,刘超,等.跨学科知识贸易动态影响和扩散模式研究——以图书情报学和管理学为例[J].情报杂志,2017,36(2):182-186,158.
[8] Bailón-Moreno R, Jurado-Alameda E, Ruiz-Baños R, et al.Analysis of the field of physical chemistry of surfactants with the Unified Scienctometric Model. Fit of relational and activity indicators[J]. Scientometrics, 2005,63(2):259-276.
[9] BELVAUX G, WOLSEY L A. bc-prod: A Specialized Branch-and-Cut System for Lot-Sizing Problems[J]. Management Science,2000,46(5):724-738.
[10] 巩永强,刘莉.基于词频分析法的情报学研究热点透析[J].图书馆学研究,2011(7):9-13.
[11] 谭春辉,麻晓杰.我国图书馆学非正式学术共同体的形成——基于1998-2012年《中国图书馆学报》的计量分析[J].情报杂志,2014,33(3):64-71.
[12] 刘自强,王效岳,白如江.多维度视角下学科主题演化可视化分析方法研究——以我国图书情报领域大数据研究为例[J].中国图书馆学报,2016,42(11):67-84.
[13] 杜建,张玢,李阳.我国医学领域不同学科作者合作度与论文影响力的关系[J].中华医学图书情报杂志,2012,21(3):18-23.
[14] 广西壮族自治区食品药品监督管理局.广西壮族自治区壮药质量标准 第一卷 (2008年版)[M].南宁:广西科学技术出版社,2008:1.
[15] 广西壮族自治区食品药品监督管理局.广西壮族自治区壮药质量标准 第二卷 (2011年版)[M].南宁:广西科学技术出版社,2011:1.
[16] 张青青,余胜民,苏青,等.壮药香花护乳凝胶剂的薄层色谱鉴别及急性毒性实验研究[J].中国民族民间医药,2016,25(18):8-9,12.