APP下载

基于文献计量分析的AD可视化平台实现

2018-09-04王雨婷

软件导刊 2018年6期
关键词:顶级发文可视化

王雨婷

摘 要:目前文献可视化平台集中在文献统计、共引关系分析上,缺乏对文献研究趋势的平台设计。为了解决阿尔兹海默病文献数量多、研究趋势难以分析的问题,搭建了AD文献计量分析可视化平台。利用biopython提供的Entrez接口,爬取NCBI网站的AD相关文献约12万篇,并基于Echart实现了可视化。结果表明,区别于传统文献可视化平台,该平台展示了阿尔兹海默症的文献研究趋势,可查看历年论文统计信息、各国家论文数量随时间相对变化趋势、顶级期刊论文被引用数量随时间变化趋势、各国家热门关键词以及关键词随时间变化趋势等。

关键词:阿尔兹海默症;Entrez;文献计量;可视化

DOI:10.11907/rjdk.173010

中图分类号:TP319

文献标识码:A 文章编号:1672-7800(2018)006-0111-05

Abstract:At present, the literature visualization platform is focused on the literature statistics and the analysis between the general relationship, but it lacks literature research trends platform design. The visualization platform of AD statistical analysis is constructed to solve the problems that the number of Alzheimer′s disease is large and the research trend is difficult to analyze. By using Entrez interface provided by biopython crawl about 12 million AD related literature on NCBI site, the platform achieves visualization based on echart.The results show that the platform is different from the traditional literature visualization platform, it shows the trend of literature research of Alzheimer′s disease, and the statistical information of the papers over the years, the relative trend of the number of papers in each country over time,the relative trend of the number of cited papers in top journals over time, the hot keywords of each country and the relative trend of the hot keyword over time can be reviewed.

Key Words:Alzheimer′s Disease; Entrez; bibliometrics; visualization

0 引言

阿尔兹海默症(Alzheimer's Disease ,AD)是一种最常见的老年期痴呆疾病[1],主要症状为认知和行为功能不可逆的缓慢丧失,至今仍是重大慢性疾病领域唯一尚无法治愈的疾病[2-3]。目前AD相关文献数量高达12万篇,文献数量多,研究趋势难以分析。因此,需要借助文献计量方法对文献进行统计分析[4-5],并借助可视化手段展示分析结果。

在文献分析平台、软件领域,焦宏官[6]初步研究了中国中医药期刊文献数据库在线分析平台,该平台主要实现了文献统计、作者发文量統计以及作者合作关系分析,根据用户需求展现结果,展示方式包括汇总图、条形图、拓扑图、雷达图、饼状图等。张震等[7]开发了基于Solr的大规模标准文献可视化分析系统,实现了可以自由定制的数据统计功能以及对标准文献起草人、起草机构的关联分析功能。张少龙等[8]构建了专利文献引用关联的可视化系统,为企业或专利文献检索单位提供了参考。胡亮[9]设计了实时文献作者共引可视化系统,为学者和科研人员提供引文的可视化查询及分析平台。

目前已有的文献计量平台集中在文献数据统计以及共引关系分析上,缺乏针对研究趋势的分析平台。阿尔兹海默症研究领域广,不断变化的研究热点和不断更新的研究发现导致其研究趋势难以分析,而利用文献计量可以很好地解决该问题[10-11]。该平台主要实现了历年论文统计信息可视化、各个国家发文量随时间的相对变化趋势可视化、顶级期刊论文被引用量随时间相对变化趋势可视化、各个国家热门关键词可视化和热门关键词随时间相对变化趋势可视化等。

1 可视化系统设计

1.1 系统架构

AD文献计量分析可视化平台主要针对海量的AD文献进行相对变化趋势分析,提取出有用信息并进行可视化,针对用户的需求为用户提供一个直观的分析结果,以便科研工作者更方便地掌握有用信息。

该平台包含4个子系统:爬虫系统、数据存储系统、数据分析处理系统、数据可视化系统。系统架构如图1所示。

爬虫系统抓取NCBI网站(NCBI是美国国立生物技术信息中心,其数据库囊括最全面的生物相关文献)上阿尔兹海默症的全部相关文献,用于接下来的数据存储以及统计分析。

数据存储系统对抓取的初始AD文献进行解析存储,并对用于文献统计分析的数据进行存储。爬虫系统抓取的AD相关文献初始为xml格式,将其全部存入非关系型数据库mongodb中。利用beautifulsoup对初始文献内容进行解析,以获取本文研究需要的信息,将解析结果存入关系数据库mysql。

数据分析处理系统分析了AD文献的相对研究趋势,包括文献历年统计信息分析、各国发文量变化趋势分析、顶级期刊发文量变化趋势分析、热门关键词分析以及热门关键词变化趋势分析。根据分析需求,从mysql数据库中提取相应的信息,进而利用python脚本进行统计分析。

数据可视化系统对数据分析结果进行可视化处理,为用户提供可视化的选择权利。本文采用Echars、ajax对分析结果进行可视化。其中历年AD论文统计信息利用折线图展现,各个国家发文量随时间的相对变化趋势、顶级期刊的论文被引用量随时间的相对变化趋势由堆叠区域图或平铺区域图表示,各国热门关键词由词云图表示,各国研究的关键词随时间变化趋势由直角坐标系中的热力图表示。

1.2 系统流程

系统流程分为数据爬取、数据存储、数据分析处理、数据可视化4个步骤,如图2所示。

2 系统功能实现

2.1 爬虫实现

主要利用biopython的Bio.Entrez模块以编程方式访问Entrez,用python脚本实现对相关数据库的搜索以及数据下载,批量抓取NCBI网站上相关AD文献12万篇。

2.1.1 爬虫流程

首先通过Entrez接口获取全部文献的ID列表,根据文献ID批量抓取文献,抓取到的初始文献存入mongodb数据库,利用beautifulsoup存入mysql数据库。该平台爬取流程如图3所示。

2.1.2 爬虫优化

针对NCBI网站抓取文献过程中遇到的问题,进行如下优化处理:

(1)利用文献编号快速抓取文献。由于NCBI网站直接翻页无法实现,抓取NCBI的文献需要作如下处理:通过biopython的Esearch获取并存储文章编号;随后读取文献编号,通过biopython的EFetch抓取文献。

(2)批量抓取文献提升抓取效率。文献抓取的过程包含以下4个步骤:①向NCBI发送请求;②NCBI在数据库中搜索结果;③格式化成XML格式;④将请求结果全部返回。

文献单个抓取准确率高,但当网络不稳定时,爬虫程序的突发性崩溃使得爬取请求被重新发送,从而降低文献的抓取效率。文献批量抓取,可减轻NCBI的负担,同时提升抓取效率。

(3)设置“抓取断点”提供进程保护。为了防止抓取过程中发生崩溃,创建文献抓取记录日志文件,抓取文献时,每100篇发送一次抓取请求,获取100篇文献抓取结果的临时文件,保存该临时文件,日志做记录,继续抓取接下来100篇直至全部爬取。如果发生崩溃,从发生崩溃的地方继续爬取。

(4)“二次爬取”保证数据完整性。mysql创建文献抓取记录表,存入所有文献ID,设置是否已抓取并保存字段。对抓取结果的所有临时文件,依次作切片处理,将100篇文献的抓取结果分割成一篇篇,并以文献ID、文献结果的方式存入mongodb数据库中,存入同时在mysql数据库中设置该文献已爬取为真。对比mongodb数据库里的文献ID与mysql数据库里的文献ID,对mongodb数据库中不存在的文献,再次爬取,再次做切片操作存入mongodb。

2.2 数据库设计实现

采用非关系型数据库mongodb存储爬取的文献结果,以及传统的关系型数据库mysql存储用于文献统计分析数据。爬取AD文献过程中有大量数据信息高并发频繁变更,文档型数据库mongodb以bson结构进行存储,对海量数据存储的读写速度比mysql有明显的优势。文献统计分析过程中,关系型数据库mysql在关联查询分析方面具备高性能。通过对平台信息的分析,利用表存储数据,数据库设计如下:

(1)爬取阶段,mongodb文献表(article)主要用来存放已经爬取的文献信息,mysql爬取记录表(crawlrecords)主要用来做断点记录文献是否已经爬取。

(2)数据分析阶段,表全部存放在mysql数据库中,mysql文獻表(alzheimer)用来存储解析后的各种文献信息,如国家、发表时间、关键词、期刊名、被引用数量等。

(3)数据分析处理后,用于可视化的表也存在mysql中,国家发文量占比表(proportion_of_country)主要存储国家、发文量、年限、占比等信息,用来展示国家发文比例变化趋势;期刊被引用量占比表(proportion_of_journal)主要存储期刊、年限、发文量、被引用量、占比等信息,用来统计期刊被引用数相对变化趋势;关键词次数表(count_of_keyword)主要存储国家、关键词、出现次数等信息,用来绘制关键词词云图;关键词占比表(proportion_of_keyword)主要存储国家、关键词、年限、占比等信息,用来统计热门关键词变化趋势。

2.3 数据分析实现

2.3.1 历年文献统计信息分析

该分析用于展现历年AD文献的变化趋势。统计每一年的AD文献数量,从中看出AD文献数量历年的变化趋势。

2.3.2 各个国家发文量相对变化趋势分析

该分析用于展现不同国家的AD发文量所占比重变化情况,通过每年每个国家发文量所占比例反映比重,因此统计了一定的年限内发文量排名前10的国家,进而分析这些国家发文量随时间的相对变化趋势。该比例的计算公式如下:

2.3.3 顶级期刊相对变化趋势分析

该分析用于展现各个顶级期刊的论文被引用量所占比重变化情况,通过每年每个期刊被引用量所占比例反映比重,统计一定年限内被引用排名前10的期刊,进而分析这些顶级期刊被引用量随时间的相对变化趋势。该比例的计算公式如下:

2.3.4 关键词相对变化趋势分析

该分析用于展现各个国家的热门关键词,以及各国热门关键词所占比重的变化情况,通过每年各国每个热门关键词所占比例反映比重。该比例的计算公式如下:

2.4 可视化实现

主要利用Ajax技术向服务器发送请求,服务器收到请求后,读取相应数据库中用于可视化的数据,返回给Ajax,用Ajax的Success方法对返回的json数据作相应处理,由Echarts渲染出可视化结果。

平台实现了用户可自由选择统计年限、统计国家的功能。利用Echarts折线图、柱状图、堆叠区域图、平铺图、热力图对相应的统计结果进行可视化,并加入Echarts的工具栏,提供区域缩放、可视化结果保存的功能。

3 实验结果

3.1 抓取结果

本文选择爬取NCBI网站,首先进行数据检索,进入NCBI页面,在TOPIC字段里输入alzheimer′s disease作为关键词进行检索,PMC数据库共检索到121 390篇相关论文,PubMed数据库共检索到121 664篇相关论文。其中,PubMed覆盖了全世界70多个国家4 300多种主要生物医学期刊的摘要和部分全文,PubMedCentral(PMC)是美国国家卫生研究院国家医学图书馆(NIH / NLM)的生物医学和生命科学期刊文献的免费全文数据库。

本平台爬取PMC数据库中AD相关论文12万篇,提取了pmcID(每篇PMC文献NCBI给定的独一无二的标识ID号)、期刊名、文献题目、摘要、第一作者信息(一般包含作者所在机构和国家)、所有作者姓名、发表时间、关键词、所有引用文章的pmcID。根据发表时间信息,分析出历年AD文献统计信息;根据第一作者信息和发表时间分析出发文量较多的国家,进而分析出发文量较多国家的论文数量随时间的相对变化趋势;根据第一作者信息和关键词分析出中、美以及其它国家的热门关键词,再综合发表时间信息,分析出中、美及其它国家研究关键词随时间的相对变化趋势以及研究侧重点。针对以上分析结果进行相应的可视化处理。

爬取PubMed数据库中AD相关论文12万篇,提取了pubmedID(每篇收录在PubMed数据库的AD文献NCBI给定的独一无二的标识)、期刊名、发表时间、被引用数量。根据期刊名、发表时间和被引用数量信息筛选出顶级期刊,进而分析顶级期刊论文被引用数量随时间的相对变化趋势。

3.2 可视化结果

平台于2016年11月爬取数据,NCBI网站虽收录了2016年的文献,但是未完全展示摘要等信息,故可视化展现出来的文献均在2016年之前。

(1)系统可视化展示历年AD文献的统计结果,其中x轴代表统计年限,y轴代表当年的AD文献总量。系统默认展示文献统计的整体趋势折线图,用户可选择所展示的统计年限(近10年、近20年或全部年限下的整体趋势);平台提供了图形缩放按钮,可供用户在已选定的统计年限内,自由选择欲查看的年限内文献统计结果;平台提供了图片保存按钮可供用户保存统计结果。用户选择展示近10年的文献统计结果如图4所示。

(2)系统可视化展示排名前列国家的发文量,其中x轴代表国家发文量,y轴代表国家。系统默认展示排名前20的国家发文量,以柱状图形式展示。用户可选择展示国家的排名位数(前10位、前15位或前20位);平臺提供了图片保存按钮可供用户保存发文量前列国家的统计结果。系统默认展示的国家发文量统计图见图5。

系统可视化展示主要国家文献的发文量相对变化趋势,不同颜色区域代表不同国家,区域大小代表国家发文量所占比例,x轴代表统计年限,y轴代表发文量比例。

系统默认展示近20年发文量排名前10的国家AD文献发文量相对变化趋势堆叠图,可由用户选择统计的年限(近10年或近20年)、统计的国家(用户可自由选择排名前10国家中感兴趣的国家)、变化趋势图展示的方式(堆叠式或平铺式);平台提供了图形缩放按钮,可供用户在已选定统计年限内,自由选择欲查看的年限;平台提供了图片保存按钮可供用户保存国家发文量趋势图的分析结果。用户选择展示近10年排名前5的国家发文量变化趋势堆叠图如图6所示(彩图见封二),可以看出美国一直处于AD研究前列,中国后来者居上,近年来AD研究超越了英、德等国家。

(3)系统可视化展示顶级期刊文献的变化趋势,下方x轴代表期刊的发文总量以及被引用总量,上方x轴代表期刊的平均被引用量,y轴代表期刊。系统默认展示排名前15的顶级期刊被引用量、发文量柱状展示以及平均被引用量折线图。可由用户自由选择展示顶级文献排名(前10、前15)变化趋势图展示的方式(数据视图、折线图、柱状图)。用户选择展示顶级期刊的被引用量、发文量、平均被引用量折线图如图7所示。

系统可视化展示顶级期刊文献占比的相对变化趋势,不同颜色区域代表不同顶级期刊,区域大小代表顶级期刊被引用量所占比例,x轴代表统计年限,y轴代表被引用量的比例。

系统默认展示近20年被引用量排名前10的顶级期刊文献被引用量相对变化趋势堆叠图,可由用户选择统计的年限(近10年、近20年)、统计的顶级期刊(用户可自由选择排名前10顶级期刊中感兴趣的期刊)、变化趋势图展示的方式(堆叠式或平铺式);平台提供了图形缩放按钮,可供用户在已选定统计年限内,自由选择欲查看的年限;平台提供了图片保存按钮可供用户保存顶级期刊被引用量变化趋势图的分析结果。用户选择展示近10年被引用量排名前10的顶级期刊文献变化趋势图的平铺图如图8所示,可以看出关于AD研究各期刊各年间被引用比例变化较大,没有一家独秀的期刊。

(4)系统可视化展示各国的热门关键词,由单词大小展示关键词词频高低。系统默认展示美国的热门关键词词云,可由用户选择展示的国家(美国、中国、除中美之外的其它国家)。图9为用户选择展示美国的关键词词云,可以看出brain、amyloid、inflammation是美国的研究热点。

(5)系统可视化展示各国的热门关键词变化趋势,由色度条展现热度高低,其中颜色浅的地方表示热度低,颜色深的地方表示热度高,x轴代表统计年限,y轴代表热门关键词。系统默认展示美国的关键词变化趋势,可由用户选择展示的国家(美国、中国、除中美之外的其它国家)。图10(彩图见封二)为用户选择展示美国的热门关键词变化趋势,可以看出amyloid、brain是近年来美国的研究重点。

4 结语

本文开发设计了AD文献计量分析可视化平台,区别于传统文献可视化平台集中进行文献统计、共引关系分析,该平台针对阿尔兹海默症的相对研究趋势进行可视化分析。

平台爬取NCBI网站关于AD的相关文献12万篇,统计历年文献信息,分析了各国论文发文量研究趋势、顶级期刊论文被引用量研究趋势、各国热门关键词及其变化趋势,基于echart对文献研究趋势的结果进行了可视化,并可根据研究者需求展现结果以供研究者查看。该平台通过文献分析,方便科研工作者深入了解AD研究领域中前沿热点的变化趋势,有利于推动科学向前发展。

参考文献:

[1] 王丽英,郭冬梅,张琨.2002-2011年阿尔茨海默病的中医药研究文献计量分析[J].中国现代中药,2012,14(12):18-21.

[2] 刘承浩,周卫东.2004-2014年中国阿尔茨海默病的研究现状及发展趋势文献计量学分析[J].中国老年学,2016,36(21):5403-5404.

[3] CHEN H, HO Y S. Highly cited articles in biomass research: a bibliometric analysis[J]. Renewable & Sustainable Energy Reviews, 2015,49(6):12-20.

[4] 李梅,陈鸣凤.阿尔茨海默病文献计量分析研究[J].中华神经科杂志,2000,33(1):14-16.

[5] 周纯,马丝竹,姚志彬.阿尔茨海默病的文献计量学分析[J].解剖学研究,2002,24(2):145-148.

[6] 焦宏官.中国中医药期刊文献数据库在线分析平台初步建设研究[J].光明中医,2012,27(4):635-637.

[7] LU S, LI R M, TJHI W C, et al. A framework for cloud-based large-scale data analytics and visualization: case study on multiscale climate data[C]. IEEE Third International Conference on Cloud Computing Technology and Science. IEEE Computer Society, 2011:618-622.

[8] 張震,甘克勤.基于Solr的大规模标准文献可视化分析系统[J].计算机系统应用,2016,25(3):67-71.

[9] 张少龙,周宁,吴佳鑫.专利文献引用关联可视化系统的构建——以“美国专利数据库(USPTO)检索系统”为例[J].现代图书情报技术,2007,2(2):64-66.

[10] 胡亮.实时文献作者共引可视化系统研究[D].天津:天津大学,2009.

[11] CHEN H, WAN Y, JIANG S, et al. Alzheimer′s disease research in the future: bibliometric analysis of cholinesterase inhibitors from 1993 to 2012[J]. Scientometrics, 2014,98(3):1865-1877.

[12] SONG M, HEO G E, LEE D. Identifying the landscape of Alzheimer′s disease research with network and content analysis[J]. Scientometrics, 2015,102(1):905-927.

(责任编辑:何 丽)

猜你喜欢

顶级发文可视化
基于CiteSpace的足三里穴研究可视化分析
基于Power BI的油田注水运行动态分析与可视化展示
LOVE, XO
10条具体举措! 山东发文做好返乡留乡农民工就地就近就业
基于CGAL和OpenGL的海底地形三维可视化
“融评”:党媒评论的可视化创新
校园拾趣
爷孙趣事
以牙还牙