Aureka专利分析工具的文献计量分析
2011-08-05刘桂锋王秀红
刘桂锋 王秀红
[摘要]专利分析是竞争情报工作中的重要组成部分。Aureka是典型的文本可视化系统之一。采用文献计量学方法,对国内中国知网、维普等数据库有关Aureka专利分析软件的时间分布、期刊分布、作者及其单位和关键词分布进行了分析研究。通过文献主题的知识挖掘,探讨了该领域论文研究热点及今后可能发展趋势。
〔关键词〕Aureka;专利分析;专利地图;专利分析软件;文献计量
DOI:10.3969/j.issn.1008-0821.2011.07.025
〔中图分类号〕G250.252 〔文献标识码〕B 〔文章编号〕1008-0821(2011)07-0106-05
A Bibliometric Analysis of Aureka Patent Analysis ToolLiu Guifeng Wang Xiuhong
(Institute of Scientific & Technical Information,Jiangsu University,Zhenjiang 212013,China)
〔Abstract〕Patent analysis is an important part of competitive intelligence.Aureka patent analysis tool is one of the typical text visualization systems.Based on literature from 2001-2010 included in CNKI digital publishing platform and VIP,This paper made literature bibliometric statistical analysis about the subject of Aureka research through these aspects of age distribution,intelligence source distribution,researchers and institutions distribution and keywords.Hot research topics of Aureka patent analysis tool was obtained based on knowledge mining from literature text.The paper tried to sum up the study on Aureka patent analysis in the past decades,so as to provide reference for further research and development.
〔Keywords〕Aureka;patent analysis;patent map;patent analysis tool;bibliometrics
Aureka知识产权管理系统最早由美国Aurigin Systems Inc公司推出。2002年,归由美国Micropatent,LLC.公司所有。2004年,被美国Thomson集团公司收购,Aureka现成为Thomson集团旗下一个重要产品。Aureka是专利文本挖掘和可视化领域的先驱,允许组织和知识产权管理。文本挖掘功能是基于关键字和统计分析。Aureka信息平台[1]是用户开展专利情报研究、知识产权管理、专利信息利用等工作的有益工具。
Aureka是一个提供在线查询、监控、分析服务的比较强大的专利分析平台。主要分为下面4个模块[2]:查询模块(Searching)、主题分布模块(ThemeScape)、引用模块(Citation Tree)和报告表达模块(Reporting)。该工具的关联可视化分析技术目前在国内处于领先地位,在国际上也具有一定特色。这种深层次的专利信息分析工具,能够为专利情报人员解决九大问题[3]。
专利地图(ThemeScape)采用先进的文本挖掘技术,对专利或文献进行分析,根据专利技术进行自动聚类。通过专利地图,既可以迅速了解技术的总体分布和技术热点;也可以了解竞争对手的技术发展历程和技术分布;还可以帮助用户快速筛选专利技术,便于制定公司的知识产权战略。如通过质子交换膜燃料电池技术的专利地图[4],就可以了解该技术的总体分布。
引证分析是Aureka专利分析工具的特色之一。通过专利引证分析[5],科研人员能够发现潜在的竞争对手、确定技术发展趋势或最新应用、识别竞争对手的专利战略和评估自己的核心技术等。如苹果公司[6]专利被引情况的Aureka图,能够揭示该公司的核心专利技术。
Aureka系统中的报告工具,能对专利数据进行各种统计分析。报告模式主要分为三大类:关键信息摘要报告(Key Summary Report)、详细报告(Detailed Report)和要点图表式报告(Pivot Tables)。
1 数据来源
本文以中国知网、万方和维普的数据库进行检索,选择“Aureka”为检索词,检索范围“主题”或“题名”或“摘要”或“关键词”或“全文”,检索界面中的入库时间选“所有年份”。检索时间截止2010年12月28日。获取的数据导入到NoteExpress文献管理软件,经过去重处理,得到42篇文献记录。
2 文献计量分析
2.1 文献增长分析
图1 2001-2010年我国Aureka研究的文献分布
文献的年代分布分析在一定程度上反映了该学科的研究发展速度和研究水平规模。图1为2001-2010年我国Aureka研究的文献分布,其中2010年数据作为参考,因有很多论文还没有全部刊出和检索。从该图可知,论文数量在总体上呈上升的趋势。最早的是在2002年,甘利人[8]介绍Aureka 分析工具的引文树功能。从2005-2008年是缓慢增长的阶段,年均论文4篇。2009年是产出最多的1年,为18篇,超过了过去几年的总和。预计2010年的论文至少不会低于2009年,因为Aureka在专利分析方面越来越体现其价值。
2011年7月第31卷第7期Aureka专利分析工具的文献计量分析July,2011Vol.2.2 文献分布分析
统计显示,42篇文献分布在22种期刊中,刊均载文量为2篇。根据布拉德福文献集中与分散定律[9],大量的某领域的专业论文集中在数量较少且质量较高的期刊上,这些期刊是该领域的核心期刊。表1是根据布拉德福定律,按照论文数量的多寡以递减顺序排列,依据每区刊载论文数量相等的原则,分成的核心区、外围一区和外围二区。从该表可知,核心区和外围一区的绝大部分期刊是图书情报学2008年版北大中文核心期刊。利用Aureka的专利分析现在主要研究领域仍属于图情类, 所以发表的文献主要集中在图情类期刊。表1 论文期刊统计分布
序号期刊名称论文数量分区及论文数量1诚执图书情报技术62城楸ɡ砺塾胧导63惩际榍楸üぷ31 154科学观察35城楸ㄑП26惩际榍楸ㄖ识27城楸ㄔ又28惩际橛肭楸29中国发明与专利210现代情报22 151112种期刊123 12(期刊名称前面打常为2008年版北大中文核心期刊)2.3 文献作者及作者单位分析
图2 论文“核心作者”及其分表论文的数量
通过作者分析,可以了解某领域的主要作者和核心作者群,有利于读者了解某作者的研究情况,促进学术研究与交流。本次研究的42篇文献集合的著者总数达到105位作者(全部合著者计算在内),篇均作者数大约为2.5人。13篇论文是由1位作者独立完成的,其余29篇论文均是合作完成的,其中有2篇与外国人合作的,最多的1篇论文由6人合作完成。发表1篇论文的作者84人,占作者总人数的80%,形成了一个长长的尾部。可见大多数作者处于研究起步阶段,内容不够深入,研究连续性不强。
根据洛特卡定律,发表1篇论文的著者人数应该占总人数的60.79%左右,发表2篇论文的作者大约是发表1篇论文作者的1/4。对于本研究,发表1篇论文的作者84人,占作者总人数的80%,高于洛特卡定律的60.79%;发表2篇论文的有7人,占发表1篇论文的18.18%,又低于洛特卡定律。主要是由于Aureka专利分析目前还处于起步阶段,尚未形成核心作者群,目前还没有达到采用洛特卡定律的条件。
根据普赖斯定律[10],“核心作者”应该完成所有专业论文总和的一半,核心作者最低发文数m的值为:m=0.749nmax,其中n璵ax是指发文最多的作者所发表的论文数。对于本研究,n璵ax为张志强的4篇,代人上式,得到核心作者最低发文数m为2,即表明,发表2篇论文以上的为“核心作者”,见图2。总共有9位作者的论文数量大于等于2篇,占总作者数的8.5%,发表论文总数为24篇,占总论文数的57%。符合普赖斯定律的杰出作者发表了全部作者论文的50%。表2 论文作者单位分布
排序作者单位论文
数量所占比例
(%)1中国科学院国家科学图书馆57.72中国科学院国家科学图书馆成都分馆46.23国家知识产权局知识产权发展研究中心南京大学信息管理系中国科学院研究生院中国科学院文献情报中心中国科学技术信息研究所上海图书馆上海科学技术情报研究所34.6
全部42篇文献的105位作者,来自65个高校和科研结构,发文量为2篇的有4家单位,只发表1篇的为43家。发文量大于3篇的机构共计8个,如表2所示。中国科学院国家科学图书馆以5篇论文排在首位,仅随其后的是中国科学院国家科学图书馆成都分馆,发表3篇论文的有6家单位。通过发文量的分析,可以看出,只有1家为高校,其余均为科研机构,并且中国科学院是该领域的主导研究力量。
2.4 文献关键词分析
关键词鲜明直观地表述文献论述或表达的主题,对关键词分析能发现Aureka专利分析研究热点与重点。通过对42篇文献统计,只考虑中文关键词,共有176个关键词,平均每篇文献4个关键词。借用描述文献中的词与其出现频次之间关系的齐夫定律,绘制关键词频次(f)与序号(r)之间的关系,如图3。由图可知,Aureka专利分析软件的研究热点主要用来进行专利分析,制作专利地图、文本挖掘和引文分析等。
图3 关键词频次(f)与序号(r)之间的关系
2.5 文献主题分析
主题分析既有助于了解该领域的研究重点和方向,又能把握当前研究领域的特点和变化趋势,为以后的研究奠定基础。本文对上述42篇文献进行详细分析后,得出有关Aureka专利分析主要分为2个方面:比较分析和实证研究。
2.5.1比较分析
专利分析工具[11]根据其处理不同结构的数据主要分为3类:第一类主要处理非结构化数据,包括:ClearForest、Goldfire、Innovator、Inxight、TEMIS。第二类主要处理结构化文本,包括:Quosa、Refviz、STN AnaVist、VantagePoint。第三类用于处理混合数据(包括结构化和非结构化),包括:Aureka、M-CAM Doors、Wisdomain、PatAnalyst和Denwent Analytics。
国内学者从不同角度对10多种专利分析工具进行比较研究。范哲[12]从收录范围、检索功能、检索结果方面对Aureka等6个专利检索工具进行了详细的比较和分析。在Aureka的检索界面,选择相应的检索方式、入口后,还可利用运算符、截词符对检索的数据范围、时间、字段内容等进行限制。Aureka可保存检索式定制Alerts,同一检索式的检索结果可被不同用户共享,以email的方式通知更新检索结果。每次检索都会以一个新的文件夹来保存结果,并可对检索结果集进行注释,以目录树的方式组织专利和非专利文档;用户可设置不同文档的访问权限以便团队中其他人分享;软件中内嵌了邮件系统,便于团队成员沟通。刘佳佳[13]等从“数据整理和概念分组”、“列表或直方图”、“比较矩阵”、“有结构数据聚类”、“无结构数据聚类”、“文档聚类地图”、“引文分析”以及“主语/行为/宾语”8个方面介绍当前国外主要的专利分析工具的功能及特色,并进行比较研究。Aureka采用ThemeScape视图为用户提供了聚类结果的直观展示。Aureka ThemeScape允许用户选择附加停用词,并利用相关反馈概念支持用户对系统产生的初始结果进行再处理,有效地利用了用户的领域专家意见。此外,ThemeScape还支持以时间片的方式对生成的等高线图进行再组织。张静[14]等根据基本统计分析、引证分析以及聚类分析这3种主要实现方法,对国内外12种专利分析工具的功能进行了比较研究。Aureka支持同族专利合并和展开,并可选择合并后显示US、EP或PCT的专利号。王敏[15]等从分析工具类型、分析数据源、主要功能、结果呈现、用户群5个方面对国外常用的12种专利文本挖掘可视化分析工具进行系统介绍和比较。通过比较分析可知,Aureka与其它专利分析工具既有共性,又有本身特点,Aureka的功能与特点总结于表3。
表3 Aureka专利分析工具的主要功能与特点
主要功能名称内容文 献检索功能收录范围US,DE,EP,GB,JP,FR,PCT检索方式专利检索、公司文件检索检索入口专利权人、专利发明人、专利号/公开号、公开日期、申请号、申请日期、优先权、PCT专利信息、专利引用、非专利引用、相关申请、专利代理人、美国专利代理人、美国专利审核员、欧专局与PCT专利授权国家、德国翻译专利运算符AND、NOT、OR、SAME、WITH、NAER、()截词符场ⅲ慷次检索能结果呈现方式以报表为主,每一类又分为基本报表和标准报表,共25个报表[11]引证分析引证数据来源US,DE,EP,GB,WO结果可视化显示可选择多级引证,最多可显示5级;引证树中目标专利可同时显示多个字段;可自动或手动给不同专利标注不同颜色信息呈现与统计可对检索结果集的后续引证专利进行统计聚类分析
(themeScape)数据来源自身包含的专利数据库聚类角度按主题聚类;按标题和文摘、权力要求书、全文的内容进行聚类,每类还可进一步选择更多字段结果呈现方式以主题地图的形式可视化展示;可在主题地图上将不同的公司标注成不同颜色;可用不同颜色标注不同的年份;可进一步浏览地图上特定区域的单个或分组专利文档,或导出地图上特定区域的文档[13]工具类型文本挖掘/可视化/数据库检索结果呈现ThemeMap、引文树、聚类图、专利报告用户群研发人员/信息管理人员/决策人员/商业智能[14]特 点优秀的专利分析软件, 功能全面, 精湛的文本聚类功能和可视化技术[12]
2.5.2 应用分析
与前几年的专利分析工具的比较研究相比,最近两年,研究的热点开始转向利用Aureka软件对某一具体领域进行分析。突出的表现在Aureka软件的两大特色功能:聚类分析地图和引证分析。典型的应用领域分布在生物、食品、油气、水资源等。张娴等[16]绘制了生物合成技术美国专利景观图。张薇等[17]利用Aureka作出的有关水处理技术的专利地图,由图可知,专利申请的热点之一是利用膜技术进行水处理。陈大明[18]获得了食品生物技术之中某一重点技术领域的Aureka专利总体地图和不同时间段技术演进图。王金平等[19]利用Aureka专利分析平台绘制了国际生态系统研究关键词地图,利用关键词地图可以直观反映热点及其变化情况。张树良等[20]绘制了矿产资源领域专利技术布局图,通过聚类分析结果,可以发现技术研发集中区和分散区。顾震宇等[21]绘制了燃料电池的技术研发重点及技术热点演进Aureka地图。卞志昕[22]比较了固体氧化物燃料电池的专利和论文的Aureka地图,学术研究更侧重基础研究;而专利技术更关注实际产品所需要的结构和功能性研究。王雪梅等[23]利用Aureka分析平台对文献进行数据挖掘,在对国际生物多样性研究的热点与发展态势分析的基础上,得到国际生物多样性研究论文的标题词地图。张娴[24]得到了智能与仿生材料领域专利的技术分布景观图,能够反映总体和不同时间段的研发热点。并且以宝洁公司涂料组合物技术和自修复增强型建筑基体材料为例,通过对重要专利技术的专利引证关系分析得出,回溯引证分析能够进行技术追踪分析,后向引证分析能够进行技术演进分析。郑军卫等[25]利用Aureka软件的Thememap功能,对低渗透油气资源研发专利技术领域布局进行分析,获得技术领域专利地图。并且得到了申请专利数比较多的E21B43/24技术领域[利用热(如热蒸汽)注入采油]的专利引文树,通过引证树,能够发现在该领域具有强劲技术实力的竞争对手和后来居上的潜在的竞争对手。总之,通过聚类地图,可以识别技术领域的总体分布和不同时间段的研发热点趋势;通过引证分析,可以识别竞争对手和确定某项技术的发展趋势。
3 结 论
Aureka因其三大特色功能:聚类分析、引证分析和专利地图,成为专利分析重要的工具之一,有着极其重要的研究及应用价值,国内学者都在对其进行研究,这极大的推动了专利情报分析方法研究的进展。
本文以中国知网、万方和维普的数据源,共统计了42篇文献,从文献的年代分布、期刊发表源、作者及单位、关键词和主题5个方面进行研究。结果表明,Aureka在我国研究的历史较短,正处在快速发展的上升期。越来越多的科研人员不断参与Aureka研究中,研究工作也呈现出广泛合作的趋势。研究的热点逐步由专利分析工具的比较研究转向在各个领域的实证研究。当然,软件本身存在一些不足之处,如采用ThemeScape绘制技术地图时,用户不能加入同义词词组或希望关注的主题概念是平台的一个缺陷。此外,引用树软件只显示直接引用关系,无法显示整个引用链,且只适用于美国专利,以及系统使用费十分昂贵都制约了它的使用和发展。可以预见,在不久的将来,随着Aureka功能的不断完善,它的应用前景会更加广阔。
参考文献
[1]陈燕,邓鹏,李芳.AUREKA信息平台介绍[J].中国发明与专利,2007,(5):63-64.
[2]侯丽,李娜,李娟.学科战略情报的研究任务与分析软件适用性探讨[J].图书情报知识,2009,(1):106-110.
[3]董悦.对网络专利情报源的几点思考[J].图书与情报,2009,(2):46-50.
[4]顾震宇.基于案例分析的区域专利分析方法应用研究[J].情报杂志,2010,(8):40-44.
[5]吴正.可视化工具在专利分析中的应用[J].数字图书馆论坛,2009,(10):60-67.
[6]李睿,孟连生.论专利间引用关系分析中存在的问题[J].情报理论与实践,2009,(7):39-43.
[7]甘利人.我国专利文献资源亟待挖掘开发[J].情报理论与实践,2002,(6):445-448.
[8]鞠邦男,袁军鹏.对我国布拉德福定律研究文献的科学计量研究[J].现代情报,2010,(11):109-112.
[9]叶鹰,潘有能,潘卫.情报学基础教程[M].北京:科学出版社,2006:9.
[10]Yang Y,Akersa L,Klosea T,et al.Text mining and visualization tools-Impressions of emerging capabilities[J].2008,(30):280-293.
[11]范哲.中外商用专利检索软件的比较研究[J].现代情报,2007,27(11):221-225.
[12]刘佳佳,董兀方曙.国外专利分析工具的比较研究[J].现代图书情报技术,2007,(2):67-74.
[13]张静,刘细文,柯贤能,等.国内外专利分析工具功能比较研究[J].情报理论与实践,2008,(1):141-145.
[14]王敏,李海存,许培扬.国外专利文本挖掘可视化工具研究[J].图书情报工作,2009,(24):86-90.
[15]张娴,高利丹,陈云伟.生物合成美国专利文献分析[J].科学观察,2009,(5):8-13.
[16]张薇,赵亚娟.国际水资源现状与研究热点[J].地质通报,2009,(2-3):177-183.
[17]陈大明.食品生物技术相关专利分析[J].生物产业技术,2009,(6):71-75.
[18]王金平,高峰,张志强,等.国际生态系统研究发展态势文献计量分析[J].地球科学进展,2010,(10):1101-1111.
[19]张树良,张志强,熊永兰.矿产资源领域国际科技发展态势分析[J].资源科学,2010,(11):2216-2228.
[20]顾震宇,卞志昕,路炜,等.应用领域专利地图的方法及实证研究[J].情报杂志,2009,(9):21-26.
[21]卞志昕.技术情报地图——专利地图与学术情报的结合[J].科技情报开发与经济,2009,(16):111-113.
[22]王雪梅,曲建升,李延梅,等.生物多样性国际研究态势分析[J].生态学报,2010,(4):1066-1073.
[23]张娴.智能及仿生材料技术专利态势分析[J].科学观察,2010,(2):27-36.
[24]郑军卫,张志强,王雪梅.低渗透油气资源研究专利态势分析[J].科学观察,2009,(4):16-25.
注:“本文中所涉及到的图表、公式、注解等请以PDF格式阅读”