基于文献大数据的穴位刺激效应可视化平台的构建*
2020-04-20李海燕黄满婷
熊 婕,雷 蕾,李海燕,黄满婷,亢 力,杨 策
(中国中医科学院中医药信息研究所 北京 100700)
针灸学源远流长,具有独特的理论体系和思维模式[1],几千年来指导着临床实践,为了探求针刺治疗疾病的机制和原理,针刺效应机制相关动物实验不断开展[2],成为针灸针灸学领域研究的重点和热点问题[3,4]。目前,这些针刺效应研究数据散在于海量文献之中,难以进行系统总结和分析挖掘,更无法快速地给研究者提供直观清晰的知识,也不便于进行知识之间的关联检索。因此,本研究旨在构建基于文献大数据的穴位刺激效应可视化平台,为针刺生物学机制的深入研究提供规范化的数据支持及辅助展示和文献检索工具。
1 穴位刺激效应可视化平台的构想及整体设计
1.1 穴位刺激效应可视化平台设想的提出
穴位刺激效应研究主要通过动物实验的方法,研究针刺穴位作用于特定疾病模型所产生的效应机制,其利用生物信息学的理论、技术与方法,来阐述针刺穴位的作用机制及分子途径。随着现代科学技术的不断进步与发展,世界各国针灸的学术交流日趋频繁[5],以穴位刺激效应为核心的针刺效应作用机制研究成为大家关注的热点,极大促使了现代针灸学的多学科发展[6]以及针灸作用机制的深入研究,同时产生了海量针刺实验文献数据。
在穴位刺激效应实验研究中,融合了中西医两种不同的思维方式。穴位刺激效应研究通过动物实验的方法来阐释针刺的作用机制,其基于解剖学和生理病理学理论,在实验研究的方法论上更注重还原论思维;而穴位刺激效应研究的实验方案则是在针灸学和中医理论的指导下进行,基于中国传统哲学思想的中医学则更注重系统观和整体观念。实验研究从形态结构和分子生物角度认识生命过程,而中医学从功能状态入手阐述人体生命变化,从而形成独特的医学理论并指导医疗活动[7]。两种不同的医学体系,其认识生命的过程以及基于此认识的诊断、干预及疗效评价过程虽然可以相互借鉴,但在实验研究数据基础上如何从整体观角度出发,进行符合中医自身规律和特点的针刺穴位效应研究是我们亟待思考的问题。由此,将目前现有的大量实验数据进行规范及整合分析,显得尤为重要。综合以上考虑,本研究旨在对涉及不同实验来源的数据集及其形成的包括机体器官(功能评分)、组织细胞(微观机能)、分子网络等各级水平的针刺效应数据进行抽取,依据数据及其内在关系,利用计算机生成的图形和图表来表示针刺效应错综复杂的过程,为针刺生物学机制的深入研究提供规范化的数据支持及多维度的可视化展示。
1.2 穴位刺激效应可视化平台的理论基础
1.2.1 生物信息的复杂网络研究
上个世纪90年代,随着高通量实验技术(如生物芯片、生物质谱[8]、酵母双杂交系统[9]和蛋白质亲和层析[10]等)的发展和人类基因组计划的启动,生命科学从基因组到蛋白质组的各个层次都积累了海量的生物数据[11]。作为生物信息的研究对象,生物体本身是一个具有高度复杂性的系统,其典型特征是非线性,即生物体部分功能的总和并不能完全代表和等同于整体功能,简单来说就是“整体大于部分之和”[12]。这种非线性的分子基础在于各种生物大分子、基因及蛋白质之间频繁而复杂的相互作用以及其构成的生物网络[13],生物体的所有生命活动都依赖于这些生物网络的结构和功能[14,15]。根据目前所能获得的局部、片面、零散的生物信息,我们无法全面了解生物体作为一个复杂系统应有的性质和功能。因此,有必要站在将生物体作为整体的高度,收集整合已掌握的生物信息,夯实其性质和功能研究的数据基础,复杂网络为生物体这一复杂系统的研究,提供了强有力的描述方式;反过来,生物信息复杂网络的研究成果也能对探索人体复杂性产生启发和借鉴。因此,构建穴位刺激效应可视化平台,采用复杂网络的方法进行数据分析,有助于整合规范海量文献中的穴位刺激效应数据,为针刺作用机制研究提供参考依据。
1.2.2 基于标准化数据库的复杂网络可视化研究
可视化(Visualization)是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术,是研究数据表示、数据处理、决策分析等一系列问题的综合技术[16]。复杂网络的可视化尤适用于有相互作用关系的复杂系统和高维数据的分析,如生物分子的相互作用、代谢途径、调控作用和基因表达等。目前常用的复杂网络可视化工具有Cytoscape、R 中的igraph 包以及Perl中的GraphViz包等,可以将纳入研究的蛋白质、DNA 和其他对人类和生物有重要作用的分子数据库关联起来,形成庞大的网络结构,便于数据的系统分析。
目前,中医药领域中可视化研究主要集中于对学科研究热点及趋势的可视化分析展示,所用技术集中于可视化知识图谱技术的应用[17],对于中医药学研究过程中产生的生物信息进行可视化研究的报道较少。因此,以针刺穴位刺激效应信息为切入点,引入生物信息可视化技术,对更深层次的组织、管理、挖掘隐藏于文献中针刺实验信息尤为必要。
1.3 穴位刺激效应可视化平台的整体设计
基于大量穴位刺激效应文献数据的系统分析和挖掘需求,该平台可提供从文献信息获取至文献数据分析的“一站式服务”。在平台可进行文献检索、文献下载以及全文查询等功能,同时支持在线使用复杂网络的方法,对数据进行多层次、多维度的动态展示,为研究者研究提供规范全面的数据支持及辅助挖掘、可视化工具(图1)。本平台实现的关键技术在于文献数据的标准化及数据库的构建。
2 文献数据的标准化研究
2.1 数据来源、纳排标准与数据特点
以“针刺OR 针灸OR 电针”为检索式,以“动物”为特征词检索中国生物医学文献数据库(CBM)、中国知网(CNKI)和PubMed数据库。针对不同类型的文献调整检索策略,收集文献题录基本信息、针刺治疗相关信息、电针治疗相关信息、基因蛋白通路相关信息、实验效应相关信息。
文献纳入标准:①动物实验研究文献,②单纯针刺疗法相关(包括体针、头针、皮肤针、电针等多种针刺方法)研究文献。
文献排除标准:①综述、文献计量学相关文献,②以针刺和药物同时作为干预方法的研究文献,③以药物注射作为干预方法的相关文献。对文献题录信息进行筛选,得到最终符合研究的穴位刺激效应相关文献。
图1 穴位刺激效应可视化平台整体设计
经以上步骤,筛选纳入1956年-2019年60 余年的相关文献共计14284 篇,其中近20年(2000年-2019年)文献发表数量明显增加(图2),共计11366篇,占总文献量的79.67%。文献质量较高,文献出处为北大核心期刊的文章6263 篇,科技论文统计源期刊文献10592 篇,分别占总文献量的43.85%和74.15%。可视化展示内容涉及针刺穴位459 个,针次穴位频次累计19943 次,功能评分、微观机能、分子水平等针刺效应频次累计7565次。
图2 穴位刺激效应文献量年度分布情况
2.2 数据录入
采用人工摘录的方式,从文献中收集针刺治疗相关信息、电针治疗相关信息、基因蛋白通路相关信息、实验效应相关信息。为了保证数据质量,我们将采用双人录入,一人审校制度,即两名加工人员进行相同文献的数据摘录工作,一名审校人员对数据进行对比审核,直接修改或删除不全的数据条目,确保正确数据保留下来。
2.3 数据标准化
2.3.1 疾病模型名称和病理状态的规范
疾病模型名称规范参考美国国立医学图书馆发布的《医学主题词表》[18](Medical Subject Headings,MeSH),根据文献原文中的描述在标准词表中找到相应的标准疾病名或症状体征;标准词表中找不到规范词的数据,则参照原文规范为其上级疾病名,并做好相应标记。
2.3.2 穴位名称的规范
穴位名称规范参考中国中医药学主题词表[19,20],根据文献原文中的描述在标准词表中找到规范的穴位名称;标准词表中找不到规范词的数据,参照原文进行规范,并做好相应标记。
2.3.3 穴位刺激效应字段的规范
为了尽可能详尽地采集数据,经专家咨询和讨论,针对针刺动物实验产生的穴位刺激效应,设计出不同维度的采集指标,包括功能评分、微观机能、组织细胞水平、分子水平和其他水平等5 类字段[21]。功能评分字段主要记录针刺动物产生的宏观症状、体征及行为学指标等,如体重变化、疼痛评分、学习记忆能力评分、神经行为学评分等。微观机能字段主要记录影像学指标、病理生理过程中的指标等,如心功能、膜电位、超微机构及血液流变。组织细胞水平字段主要记录组织细胞病理学指标、血液生化指标等,如梗死面积、细胞凋亡数、白细胞计数等。分子水平字段主要记录免疫遗传学指标,包括基因、蛋白、核酸等,如转化生长因子-β1(TGF-β1)水平、酪氨酸蛋白激酶A(tyrosine kinase A,TrkA)表达、热休克蛋白70(Hsp70)表达。不属于以上分类的指标记录在其他水平字段,如一氧化氮含量等。微观机能、组织细胞水平字段的规范以《医学主题词表》(MeSH)为标准,分子水平字段参照PubMed-Gene and Protein 和KEGG 数据库进行规范,基因名称的规范均以人类基因的名称为准。若不能在相应的参照标准中找到规范描述,则以一个较为通用的字段为标准进行统一规范,并做好记录工作。
3 穴位刺激效应数据库的构建
3.1 数据库结构设计
基于针刺实验文献的内容分布,构建数据库表结构及关联关系,形成多张信息表,以规范收集文献的基本信息、针刺治疗信息、电针治疗信息、基因蛋白通路相关信息、实验效应相关信息等。不同的信息表通过原序号与文献表相关联。数据库的表结构和关联关系详见图3。
3.2 开发数据加工平台
为了方便数据加工及数据标准化,本研究还开发相应的数据加工系统。经管理员分配任务后,数据加工人员可登录平台,在线打开原文进行不同表格、不同字段的填写;数据填写提交后转入审核人员界面,供审核人员审核修改。
3.3 多级化、多角色的数据管理和审查机制
数据加工平台具备多极化、多角色的数据管理功能,数据经过双人录入提交后,需要多个审查员进行初审、终审两次审查规范,通过标记或修改错误,确保数据采集的真实性和准确性,同时便于回溯数据处理和标准化过程。
4 穴位刺激效应可视化平台的应用
在完成以上数据标准化加工的基础上,采用Browser-Server 方式的Web 应用程序,进一步使用java语言进行可视化平台的开发,本平台已获得计算机软件著作权1项(登记号:2017SR566940)[22]。
4.1 文献检索及筛选功能
穴位刺激效应可视化平台可以对用户提供多角度文献数据源筛选功能,用户可以按照研究目的,选择疾病、穴位、效应、疗法、组织器官5种检索入口(图4)进行检索,以便抽取出更加符合研究目标的数据纳入复杂网络,以提高纳入数据的质量,得到较为理想的结果。如在“穴位”检索入口检索“足三里”,则得到针刺足三里产生穴位刺激效应的相关文献;在“效应”检索入口检索“梗死面积”,则可以得到针刺穴位效应为改变心肌梗死面积的相关文献;在“疗法”检索入口检索“电针”,即可获得电针作用于疾病模型的穴位刺激效应相关文献。
4.2 可视化展示
穴位刺激效应研究涉及疾病模型、针刺穴位、多种穴位刺激效应等多方面数据,因此,如何方便快捷地多层次、多角度动态展示相关信息为可视化的重要目的。本平台提供多种可视化展示模式,即用户在检索结果中选取若干文献后,可以将文献中所涉及的疾病、穴位、效应、疗法、组织器官等5种知识元及其之间的关系,以树形模式、圆形模式、网状模式3种方式展示(图5),并在表格模式中可查询本次可视化展示所纳入的数据。可视化图形支持放大、缩小、位置移动等操作,以适应不同情况下的可视化显示需求。在图形显示中,不同类型知识元以不同颜色的节点显示,节点间连线用来表示知识元之间的关系。连线上的数字具有特殊的含义,它不但代表了知识元或者多个知识元所在文献出现的次数,双击数字还可以进行查询检索,用户能够快速、直观、准确地找到所需要的文献,是不同于关键词检索、主题检索等检索模式的新检索模式。
图3 数据库的表结构和关联关系
图4 多角度文献检索筛选界面
图5 以帕金森病为例的可视化展示
3种可视化模式中,树形模式和圆形模式便于研究者了解同一篇文章中的数据情况,以及不同文献中数据的多角度对比。而网状模式是将纳入研究的数据进行系统分析,便于展示“疾病-穴位-穴位刺激效应-基因蛋白”间的多维度复杂关系。科研人员可以将多种可视化方式结合起来进行研究分析。
4.3 以帕金森病为例的平台应用展示
以“帕金森病”为检索词检索文献后,筛选研究相关文献纳入研究。为防止可视化展示因数据过多而产生混乱,本平台限定最多纳入10篇文献中的数据为本次可视化的关系节点,但可视化图片中展示的数字为整个数据库中的数据,不限于检索出的10 篇文献。例如,本次检索纳入10 篇帕金森病相关文献,其中涉及的针刺效应如神经行为学表现、RET、NEFL 等节点及针刺部位如风府、太冲、关元、足三里等节点,这些节点均来源于检索出的10篇文献;节点后的数字表明数据库中出现该字段的文献数量,如“神经行为学表现[171]”表示该字段在数据库中出现171次,前面的箭头“↓”则表明针刺可以减少神经行为学量表评分;节点间连线上的数字表示数据库中描述两者关系的文献数量,并且双击该数字可以直接显示文献名称列表,如“NEFL”与“风府”的连线上的数字2 表明有两篇文献研究结果显示,针刺风府穴能够上调NEFL水平。
可视化展示可综合多篇文献内容,了解针刺治疗特定疾病相关的穴位刺激效应,如图5 中的树形结构表示对帕金森病模型进行针刺,产生的穴位效应指标主要有分子水平、组织细胞水平、功能评分等。分子水平分支中的“NEFL 指标”一支表示,可以通过针刺风府、太冲、关元等穴位而产生上调该指标的效应。点击“NEFL”后面的数字,可以检索到这个基因研究相关的6 篇文献[23-28],点击“NEFL”与“太冲”连线上的数字,可以检索到针刺太冲穴调节NEFL水平的文献[22]。
5 小结
随着针刺效应机制研究的深入和发展,产生的大量针刺实验数据散在于海量文献之中,难以进行系统地总结和分析挖掘。本研究首次建立穴位刺激效应可视化平台,纳入中国60 余年针刺效应实验相关论文,对于涉及不同实验来源的数据集及其形成的包括机体器官(功能评分)、组织细胞(微观机能)、分子网络等各级水平的穴位刺激效应数据进行抽取,依据数据及其内在关系,利用计算机生成的图形和图表来表示针刺效应错综复杂的过程,旨在整合穴位刺激效应信息资源,直接、便捷地展示相关研究成果,为针刺作用机制研究提供数据支持和辅助挖掘工具。目前,穴位刺激效应可视化平台[29]已经投入使用2-3年,文献数据库每年保持更新,可提供7 天24 h 免费服务。由于该平台尚未进行广泛推广,相关应用研究及其验证实验没有大规模开展,还存在诸多有待改进的地方。未来将会在数据更新的同时逐步完善平台功能,如增加文献质量分类、发表年限等辅助检索功能,以便增强可视化内容的精准性,同时也期待本平台能被针刺机制研究领域人员广泛使用,并提出宝贵的改进建议和临床科研需求。