基于多种可视化软件的东方马脑炎情报分析*
2015-03-13薛晓芳胡畔畔
薛晓芳 胡畔畔
(解放军医学图书馆 北京 100039 )
基于多种可视化软件的东方马脑炎情报分析*
薛晓芳 胡畔畔
(解放军医学图书馆 北京 100039 )
基于多种可视化软件对1995-2015年2月东方马脑炎相关SCI论文和专利发布的数据进行挖掘,分析其总体概况、专利技术生命周期、学科研究领域和所属国家/地区合作竞争关系、机构及突出个人的基本情况等,展现各软件的使用特点,指出图书馆要掌握数据挖掘和信息可视化技术,以便提供满足用户深层次、个性化需求的参考咨询服务。
东方马脑炎; 情报分析;TDA,Innography,CiteSpaceII
1 引言
东方马脑炎(eastern equine encephalitis,EEE)是一种典型的人兽共患病毒性疾病,因1933年首先于病马脑组织中分离出病毒,故而得名。1938年从病人脑组织中也分离出同样病毒,其引起的人类脑炎症状十分危急而凶险,临床表现与乙型脑炎很相似。该病毒的死亡率甚高,马类为70%~80%,人类约50%。该病毒也是目前国际社会列为防生物恐怖的主要种类之一,国内属一类管理的病毒种类[1],备受关注。
信息可视化是情报重要研究领域之一,将信息可视化技术应用于医学领域文献分析,能够深层次挖掘医学领域研究主题内在关联,以可视化形式传递和呈现隐性信息,更直观、有效揭示医学文献分析结果,为把握医学领域发展前沿和研究热点提供了新的手段[2]。本文选取TDA、Innography、CiteSpace等可视化软件,分析东方马脑炎相关基础研究,以展现各软件的使用特点。
2 资料与方法
在SCI库中检索1995-2015年2月相关论文,检索策略为TI=“(eastern equine encephalitis)or EEE”,在TI(Thomson Innovation)中用同样策略限定在标题/摘要/权利要求中检索相关专利,对其核对确认为东方马脑炎方向研究后导入TDA(Thomson Data Analyzer)软件中进一步清洗分析,将作者姓名、所属机构、高频关键词等进行归并去重,确保数据的精确。
3 结果与讨论
3.1 论文和专利总体分析
检索得到,1995-2015年2月,涉及东方马脑炎的SCI论文共有349篇,年均17.45篇。总被引频次6 047次,除去自引共4 957次,篇均被引14.2次,h指数为39(上述数据来源于Web of Science)。而东方马脑炎相关专利(包含同族扩充)共1 218例,年均60.9例。图1为1995-2014年东方马脑炎相关SCI论文与专利数量对比情况,从图中可以看出,年度发表论文数量呈缓慢增长趋势;整体较为平稳;而专利数量却在2002年突然激增,之后除了2014年(由于专利特殊性,尚有部分数据未收录入数据库,不能代表当年真实情况)外均未低于50例。图1中可看出东方马脑炎相关的专利数量远大于SCI论文数量,实践运用多于高水平的基础研究。
生命周期理论(Life-cycle Theory)是最常被采用的基础理论。目前国内外比较成型的生命周期理论主要包括产品生命周期理论、组织生命周期理论、产业生命周期理论以及技术生命周期理论[3]。图2为1995-2014年东方马脑炎专利技术生命周期图。根据图中折线的斜率可知,1995-2000年专利件数量随着申请人数缓慢平稳增加,属于“萌芽期”;2000-2001年专利数量迅猛增长进入“成长期”后至2002年势头稍微回落,但至2003年出现短暂的衰退;2003-2004年再次进入“成长期”,至2005年申请人数减少近一半的情况下专利数量却有所增加,即所谓“成熟期”;而之后2007、2009年专利数量下滑较多,为“衰退期”,随后专利数量与申请人数再次回归至近似正比例关系,研究进入“复苏期”。由此可见,虽然关于东方马脑炎的专利数量整体不多,但是其技术生命周期相对较完整。
图1 1995-2014年东方马脑炎相关SCI论文与专利数量
图2 1995-2014年东方马脑炎专利技术生命周期
3.2 所属国家/地区分析
3.2.1 数量分析 SCI论文方面,相关作者的国家共41个(第一作者国家共25个),其中两篇以上有21个国家。专利方面,优先权所属国的分布可了解各个国家在该技术领域的实际实例,选取优先权专利数进行统计。可以看出,美国在东部马脑炎相关方面的SCI论文量与专利优先权数远远超出其他国家和地区,发文量289篇,专利数272件。另外,除第一作者国家外,关注东方马脑炎病毒的国家还有墨西哥(6篇)、新加坡(2篇)、阿拉伯联合酋长国(2篇)等,其中墨西哥篇数较多,但不是作为第一作者,说明其他国家在此方面与该国的合作较为频繁。本传染病自1933年流行于美国东部一些农场的马群中,主要分布在美国东部、东北部与南方几个州,最多的州包括佛罗里达、乔治亚、马萨诸赛和新泽西州,加拿大的安大略省、加勒比群岛、阿根廷、圭亚那等地。可见各国发文数量与其是否为此病发源地及高发区有密切关系。东方马脑炎第一作者国家发表论文与优先权国家专利年度气泡图,见图3,图4。
图3 东方马脑炎第一作者国家发表论文年度气泡图
图4 东方马脑炎优先权国家专利年度气泡图
图中气泡的大小代表该国在相应年份拥有科研产出数量的多少。从图3可知,美国的相关研究力度大且持续,无论在论文还是专利方面均远超过其他国家;加拿大、中国、法国、英国、澳大利亚研究力度相对较大,但时间上的持续性不如美国,我国对马脑炎病毒的研究起步相对较晚,1991年李其平等[4]首先从新疆一组全沟硬蜱中分离出该病毒,陈立等[5]对国内13个地区人血清进行了血清流行病学调查。2002年以来又收集此类病人血清进行东方马脑炎的检测,发现也存在感染,在福建首次发现该病毒感染者[6]。
3.2.2 研究领域分析 美国在各个领域均较为强势并且范围宽广,其他国家研究方向多集中于兽医学、昆虫学、病毒学及公共卫生环境、环境和职业健康等。美国在东方马脑炎相关领域拓展较广且基本形成了一个较全面的体系,其他国家只是专注于某几个领域。现阶段仅有美国作为第一作者国家在基因和遗传学、细胞学、应急医学、进化生物学、卫生保健科学与服务、医学信息学、医学实验室技术、护理、复原及水资源等研究领域有相关文献发表。除美国外,马西主要在兽医学和热带医学、中国在病毒学、加拿大在兽医学和应用微生物方面研究较多,所发表文献数量相对多。图5为更具体的高频关键词主成分聚类图,选取出现频率最高的前20个关键词,采用主成分分析法(Principal Components Analysis,PCA)进行聚类分析,TDA对每一个因子中包含的词组计算其权重,权重值范围为[-1,1],权重的大小取决于绝对值[7],得到了7个主要簇类分别是脑脊髓炎病毒、蚊科、甲病毒、感染、病毒、中枢神经系统和辛德毕斯病毒。这即是东方马脑炎研究中的热点,在其附属关联词中可见不同种病毒,及相关感染、识别、接种疫苗,蚊科、鸟类、马等常感染传播体,入侵中枢神经系统进行感染等系列热点因子。
图6为专利的关键词聚类图,应用Innography软件的聚类功能,去同族专利后进行关键字聚类得出图中的17个类,按照不同填充图案加以区分。美国在专利方面依旧研究范围广、方向多,尤其在“功能组”“二芳基脲”有关专利,“西尼罗病毒”“病毒性感染”“病原体”等方面相关专利也较多;而加拿大在“害虫”与“助手RNA”中独树一帜,在“免疫应答”方面也较为突出;中国在“马脑脊髓炎病毒”方面研究较多外其他方向并无突出。
图5 东方马脑炎SCI论文研究热点主成分聚类
图6 东方马脑炎专利研究热点主成分聚类
3.2.3 合作关系分析 图7为1995-2015年2月SCI论文国家/地区合作关系情况,连接线表明两者之间有直接的作者合作关系,星形表示该国与其他国家合作较多,圈中国家表示之间合作关系较紧密。英国与加拿大分别处于两个圈的交集中,表明其合作过的国家可互相进入另一个圈中找寻伙伴再次展开合作,拓宽合作范围。美国在东方马脑炎方面拥有的文献数远超过其他国家地区,并且自主独立完成的情况占大部分,与其他国家之间的合作与总数相比较少,因此图中并未显示该合作关系情况,专利方面多数为美国所有,且因专利的特殊性各国合作关系稀疏,故不分析其合作关系。
图7 1995-2015年2月东方马脑炎SCI论文国家地区合作关系
3.2.4 专利竞争关系分析 专利方面,对合并同族专利后的209条专利以国际专利分类号与优先权国家作为因子进行互相关聚类(Cross-correlation),分析其专利竞争关系,见图8。从图中可以看出,C12Q-000(包含酶或微生物的测定或检验方法)方向上韩国与中国,A61K-003(医用、牙科用或梳妆用的配制品)方向上美国与澳大利亚、英国;A61P-003(化合物或药物制剂的特定治疗活性)方向上美国与欧洲专利局、英国,C12N-000/001(微生物或酶;其组合物)方向上美国与韩国、丹麦、澳大利亚等,专利分类号有部分重合一致,表明在相同领域除合作关系外对彼此构成竞争关系。
图8 专利优先权国家地区研究领域竞争情况
3.3 机构与个人分析
分别对发表SCI论文于专利拥有者的前20名机构进行统计,见表1。SCI论文中,20家机构全部属于美国,中国军事医学科学院和中国农业科学院分别排名25、26名。机构中大学成为研究主力,德克萨斯大学发表文章数量占总数近20%,作为发表文章数最多的机构,在东方马脑炎基础研究部分有着长时间的探索和经典的研究结论。佛罗里达州包括佛罗里达州立大学、佛罗里达大学及佛罗里达卫生部在内发表共38篇,表明佛罗里达地区对东方马脑炎也极为关注。专利中,机构多为医药公司,偏重于实际应用,而美国疾病预防控制中心、德克萨斯大学在论文和专利中排名均靠前,这两家机构在东方马脑炎领域的研究处于领先地位。
表1 高发文与高专利机构科研产出数量统计
Innography的专利权人气泡分析图能直观体现专利权人之间技术差距和综合经济实力。图中气泡大小代表专利多少,横坐标代表技术综合指标,与专利比重、专利分类、引用情况相关,横坐标越大说明专利权人的专利技术性越强;纵坐标代表企业实力指标,与专利权人的收入高低、专利国别、专利涉案情况有关,纵坐标越大说明专利权人经济实力越强[8]。图9为东方马脑炎专利权人气泡图,去除政府、学校等非营利机构,将部分公司在东方马脑炎相关专利研究中的技术实力和市场性能即利用专利的能力进行综合判定。图中第1象限为最优区域,技术实力与市场性能俱佳,此象限空缺;第2象限技术实力欠佳但市场性能好,作为世界大型制药企业的诺华制药与辉瑞公司位于此象限,市场性能处于行业领先,而辉瑞公司专利不多,是其他公司寻求该方面成果转化的潜在对象;第4象限中美国开米美景公司关于东方马脑炎的专利技术很强,但是其市场性能较弱,可寻找对象来合作互补;其他大部分公司处于第3象限中,技术实力与市场性能均欠佳,说明东方马脑炎相关专利的应用性能不强,市场开拓欠缺,尚有较大空间发展。
图9 东方马脑炎专利所属部分公司的技术和经济实力气泡图
利用CiteSpace软件进行高被引作者共引分析,网络节点类型设置为“被引作者”,得到作者共被引的可视化图谱,见图10。图中所显示的被引用最多的作者,是本领域高影响力作者。一般来说,核心作者一是要有一定的学术著作量。二是著作在学术界有一定的影响力或较高的学术价值,而后者主要体现在文献被引频率上[9]。依据图中所示,带有三角形节点与其他节点复杂连接较多,在该领域较为核心,参与或被不同课题组借鉴。结合数据,东方马脑炎核心领军人物主要有Weaver SC(被引106次)、Calisher CH(被引78次)、Scott TW(被引72次)、Crans WJ(被引54次)、McleanRG(被引45次)等。其中Weaver SC教授在东方马脑炎专利方面的表现也尤其突出(作为发明人有40项专利),现任美国加尔维斯顿国家实验室、理学和微生物学和免疫学部、人感染和免疫研究所主任,研究侧重于虫媒病毒,包括机制脱离动物病周期、进化、mosquito-virus交互和疫苗的发展。
图10 东方马脑炎1995-2015年2月SCI论文高被引作者图谱
4 结论
从以上分析结果来看,东方马脑炎的相关研究在不断深化、拓展,虽然数量上的增长速度较慢,但在方向上不断开辟新的学科领域。现阶段美国在该领域的研究处于遥遥领先位置,首先有该传染病起源于美国东部有关,另外SCI论文方面以美国德克萨斯大学为首的“学院研究派”与各大制药公司为主的“公司实力派”分别带动了SCI论文和专利的发布,使得美国远超其他国家地区。经历了短暂的技术生命周期,现处于“复苏期”的东方马脑炎的研究在基础理论与实际应用方面均有很大发展空间,学科尚有大块空白可以填补,各国家侧重的方向也可助其寻找方向关联的合作伙伴或领域核心学者进一步深入研究。
在实际的参考咨询工作中,读者不仅要求获取信息的便利性,更注重所获取信息的质量,所以各大图书馆均要求参考咨询员掌握数据挖掘和信息可视化技术,以便提供满足用户深层次、个性化需求的参考咨询服务[10]。在进行文献情报分析时,必要的软件工具可使工作量减小、效果更加突出,提高报告内容质量的同时也方便情报人员开展分析工作。而现在诸多可视化软件的出现,多样的功能操作、绚丽的视觉效果往往使情报人员在选取使用时“犯难”:各自有独特的特色,而部分功能又有所重叠。如TDA,其数据挖掘功能非常强大,可对数据进行精确清洗,但需要提供数据源导入数据;Thomson Innovation、Innography本身包含海量专利数据,可以检索和分析,前者拥有等高线样式的专利地图,后者有较新颖的色块聚类图、专利权人气泡图、专利强度等,但都缺乏数据的二次加工清洗功能;CiteSpace的可视化效果好,但阈值的设定、算法的选择都需要反复尝试呈现最优效果等。在选取软件工具时要根据实际情况和各软件功能特点,结合各自擅长,尽可能多方面选择最能说明研究问题的可视化效果,多元互补避免单一,使分析结果多样化综合呈现。图书馆员平时也要加强对各种新兴软件的自主学习,了解其使用方法和功能特点,在应用操作中才能灵活变通得心应手。
1 百变百科[EB/OL].[2015-01-10].http://baike.baidu.com/link?url=B0Jylm6dSxiAkE7fgZ9vQSeDNGd4l1y8k_KqG29ibsw_oznRhOVjbhfEFmbE0vnUyLKOBAbsUsDnbwNljgwdLa.
2 王敏.信息可视化在医学文献分析中的初步应用理论研究[J]. 2010,31(2):41-49.
3 余致力.基于专利信息分析的紫杉醇技术生命周期[J]. 医学信息学杂志,2010,31(11):46-49.
4 李其平,梁国栋,谢杏初,等. 东方马脑炎病毒的分离与初步鉴定[J]. 中华实验和临床病毒学杂志,1992,6(1):68.
5 陈立,梁国栋,陈伯权,等.我国一些地区人血清中抗辛德毕斯病毒和抗东方马脑炎病毒的抗体检测[J].中华实验与临床病毒学杂志,1994,8(4):371-372.
6 潘亮,潘敏楠,严延生,等.福建省首次从临床病例中发现东部马脑炎病毒感染者[J].海峡预防医学杂志,2003,9(4):31-32.
7 胡畔畔,薛晓芳. 基于TDA专利分析的可视化学科服务实例[J]. 医学信息学杂志,2014,35(12): 45-50.
8 Innography[EB /OL].[2014-11-10].https://app.innography.com/
9 张畅. 基于Citespace的国际医学图书馆研究可视化分析[J]. 医学信息学杂志,2015,36(4):54-57
10 韩爽,郭继军.可视化软件应用分析[J]. 医学信息学杂志,2014,35(2):55-58.
The Information Analysis of Eastern Equine Encephalitis Based on a Variety of Visualization Softwares
XUEXiao-fang,HUPan-pan,
MedicalLibraryofPLA,Beijing100039,China
Based on various visual softwares, the paper mines the data of SCI papers and published patents on Eastern Equine Encephalitis(EEE) during 1995-2015.2, analyzes the overall development, patent technology life circle, research area, cooperation and competition among countries/districts, basic information of institutes or outstanding individuals. The characteristics of various visual softwares are showed, the libraries should master data mining and information visualization technology, so as to provide consulting service to satisfy the deep level and personalized demands of users.
Eastern Equine Encephalitis(EEE); Information analysis; TDA; Innography; CiteSpaceII
2015-06-02
薛晓芳,博士,助理研究员,发表论文20余篇;通讯作者:胡畔畔。
全军十二五面上项目(项目编号:CWS12J115);军事医学科学院生物安全课题(项目编号:14S01);解放军医学图书馆十二五课题(项目编号:2011250001)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.06.014