共现分析在专利地图中的应用研究
2009-10-13高利丹肖国华张娴房俊民
高利丹 肖国华 张 娴 房俊民
〔摘 要〕本文对专利情报研究中的共现分析方法作了分类,将其分为共引、共词与共类分析3种。并结合专利地图分析探讨了3种分析方法的主要功能、作用及结果表现形式,通过制作专利地图,对3种共现分析所产生的结果作了解释,并对这3种共现分析方法的优缺点作了评述。
〔关键词〕共现分析;共引;共词;共类;专利地图
〔中图分类号〕G353 〔文献标识码〕A 〔文章编号〕1008-0821(2009)07-0036-04
The Application Study of Co-occurrence Analysis in Patent MapGao Lidan1,2 Xiao Guohua1 Zhang Xian1 Fang Junmin1
(1.Chengdu Branch of National Science Library,Chinese Academy of Sciences,Chengdu 610041,China;
1.School of Economics & Management,Southwest Jiaotong University,Chengdu 610031,China)
〔Abstract〕This article discussed the co-occurrence analysis methods,such as co-words,co-classifications,co-citations,and presented their applications for patent mapping respectively.Then,the functions and end products of each method were presented.Through patent mapping,the meanings of each method were given.
〔Key words〕co-occurrence analysis;co-citations;co-words;co-classifications;patent map
共现分析是将各种信息载体中的共现信息定量化的分析方法[1],以揭示信息在内容上的关联程度。在计算机技术的辅助下,共现分析以其方法的简明性和分析结果的可靠性,成为支撑信息内容分析研究过程的重要手段和工具。国内外对共现分析虽已有一些研究[2-3],但还鲜有在专利分析领域的应用研究。
共现分析方法的研究对象较广,包括对文本中的词汇(关键词等)、分类号、引文和文献中的其他有意义的字段。有学者将共现分析分为同引分析、共词分析与主题词链聚类分析[3]。在专利分析中,根据专利文献的特点,我们将共现分析的种类主要分为共引分析、共词分析、共类分析。本文对专利分析领域中可用到的这3种主要共现分析方法分别进行介绍,并对各种方法的优缺点进行了评述。
1 共引分析
共引又称同引,指2篇文献同时被后来的1篇或多篇文献引用,同时把共同引用这2篇文献的文献数量称为共引强度[4]。共引分析是引文分析中最具影响力的分析方法之一,利用共引分析可以得出分析对象之间由引文关系形成的关联关系,对这些信息用学科专业知识加以解释和分析判断,可以揭示研究对象的规律、预测其发展趋势。2篇文献被后来文献同时引用的次数越多,表明这两篇文献的关联程度越大,即说明这2篇文献在内容上相似性较大,按照聚类分析的思路,这两篇文献可以被聚为一类。
纵观共引分析研究的发展历程,主要有3个系列:以Small为代表的以文献为分析单位所做的文献共引分析研究;以White为代表的以作者为分析单位所作的作者共引析研究;以及以Kostoff为代表利用知识发现和数据可视化技术的综合集成分析阶段[5]。
目前的共引分析研究主要集中在对期刊文献的研究上,主要是由于期刊文献的
参考文献著录较完善,所以引文信息丰富,便于进行统计分析。而专利文献的引文分析较少,一般只能限于外国专利文献的分析,中国专利尚缺乏可供分析的引文数据。将作者共引分析理论应用于专利分析中,可以对申请人(机构)关系进行分析,比如,2个或多个申请人(机构)的专利文献同时被后来的专利文献引用的次数越多,则表明这两个或多个申请人(机构)的研究内容相似性越大,即表明技术更相近。图1为采用德温特分析家软件,对某电子领域申请人(机构)的被引情况作的共引图,图中可以看出:
(1)NOKIA和NEC公司相距较近,表明这两家公司的相关性较强,研究领域较为接近。后台数据显示,NOKIA有12件专利被MOTOROLA引用,有15件专利被TELEFONA引用;NEC有11件专利被MOTOROLA引用,有10件专利被TELEFONA引用。
(2)MASSACHUSETTS、CSI、ECHELON 3家公司形成另外一簇,表明这3家公司的相关性较强,研究领域较接近。后台数据显示,MASSACHUSETTS公司有7件专利被IBM公司引用,有5件专利被CSI公司引用,有5件被ECHELON引用;ECHELON有7件专利被IBM公司引用,有6件被CSI公司引用,有5件被NORAND公司引用;CSI公司有8件被IBM公司引用,有7件被NORAND公司引用,有6件被ECHELON引用。这3家公司中,MASSACHUSETTS和ECHELON总有1家同时被另外2家引用,而任两家公司又同时被另外的两家公司所引用。
从图上还可以得出技术关联性较大的公司还有QUALCOMM与NORTEL公司;MOTOROLA与AT&T公司;DIGITAL ANGEL与MICRON公司等。
2 共词分析
共词分析是文献计量学常用的研究方法,是通过分析在同一个文本中的词汇对(单词或名词短语对)共同出现的情况,以发现科学领域的学科结构的定量分析方法。采用文献所列的关键词或从文本中选择的关键词,通过描述关键词与关键词之间的关联与结合,揭示某一领域研究内容的内在相关性和学科领域的微观结构。该方法常用于展示学科的发展动态和发展趋势,还可用于科技预测,发现新的学科增长点和突破口。
例如,某一时期发现某一学科有相当一部分科学家的论文显示某2个或更多术语频频共现,便可认为这种共现展示了该学科的一个新的蓬勃发展的研究领域。关键词共现分析还可以用于科技预测,发现新的学科增长点和突破。例如,如果有文献研究表明术语A与术语B之间存在较强的共现关系,术语A与术语C之问也存在较强的共现关系,那么可以推测术语B和术语C之间也可能存在某种关联,通过揭示术语B和术语C之问的关系便有可能导致科学上的某种创新性发现[6]。
德温特专利数据库中的题名项,是德温特公司的著录专家经充分凝炼专利申请的创新内容后再加以著录标引的,相当于揭示专利内容的微型文摘。因此,题名中采用的关键词是对申请人技术创新内容的精炼提示符,可作为计量研究的重要指标。我们对德温特专利数据库中收录的无线传感网领域的专利申请题名作了词频分析,从中离析出每份申请的研究对象,选取较高词频的48个关键词作共词分析。图2是共词分析结果的关联图表现形式,结果显示:
(1)涉及node(s)与sensor(s)的专利申请数量最多。这与node(s)或sensor(s)属无线传感器网络的基本物理单元的性质有密切关系;
(2)围绕node(s)主题,部分技术主题形成了以其为核心的主题簇;
(3)cluster、path、ad-hoc、router、TDMA、wireless mesh network等主题词,与node(s)关联紧密,显示上述方面的技术与节点技术创新内容的关系较为密切,是互为关注较多的领域;
(4)Carrier sense multiple access、collision、error correction等形成关系紧密的另一主题簇,表明在其代表的无线传感网信道方向,已有深入和细化研究。
3共类分析
在上述2种方法中,共引分析已被广泛采用,但由于中国专利数据库缺乏引文数据,只能限于对外国专利数据库中收录专利进行引文分析;共词分析在专利之外的文献分析中应用也较为广泛,但在专利文献中,由于没有关键词,所以取词还是一个难点,现有的德温特分析家软件虽然可以对德温特专利数据库中的专利文献进行截词,但从截取的海量词汇中挑选出能反应出相关技术的词又需要分析者除了具有情报分析能力外,还应具有较高的专业知识,这无疑给分析带来了一定的困难。因此,共类分析便被提出了。
对共类分析研究较早的是1993年德国学者SYBILLE HINZE,他通过对书目的共类与共词分析研究新兴学科的发展[7]。此外,其它领域也相继出现了共类分析的研究[8-9]。
国际上在专利领域进行共类分析的研究还比较少,国内还未见有相关文章。鉴于共词分析取词的困难和共引分析对数据库的要求而使得二者用于分析均产生一定的局限性,相比之下,共类分析的数据容易取得。每篇专利至少有1个国际专利分类号(IPC号),一般还会有多个专利分类号,表明该专利涉及的技术内容包含多个领域,所以通过对专利分类号进行共现分析,可以发现现有研究中具有密切关联的领域。所以专利共类可定义为:2个或2个以上的分类号在多篇专利文献中共同出现的次数反映了这些分类号所代表的领域间的研究关联程度。如果把某篇专利文献的分类号看作是代表此专利技术涉及的多个关键词(专利技术涉及到的多个研究方向),共类分析的思想与共词分析的思想便体现出相似之处来。
现有的专利分类体系包括国际专利分类法(IPC)、美国专利分类法(UPC)、欧洲专利分类法(ECLA),以及德温特公司编制的分类体系等。目前只有英、美、日等少数国家仍在采用自己的专利分类法,但在说明书及相应的检索工具的著录中都附有国际专利分类号。
图3是美国专利数据库中的授权纳米专利的共类分析图[10]。从图中可以看出:分类号在不同专利文献中共同出现的次数越多,它们在图形上的距离越接近;圆点的大小体现了分类号在检索出来的所有专利文献中出现的次数的多少,频次越高,圆点越大,从图上可以看出,H01L是出现频次最多的分类号。
图3(b)是将图3(a)中的分类号具体化为其所代表的技术内容后的共类图。所有圆点按照共同出现的情况被分成了4个簇,分别用白色、浅灰、深灰与黑色显示,所代表内容如下:
(1)白色:与基础化学工业相关的专利技术,主要为原材料(化合物和涂层);
(2)浅灰:与测量相关的专利技术(包括对酶、微生物、长度、厚度、光学设备的分析);
(3)深灰:半导体、电子元件、特殊机器;
(4)黑色:医药品、化学品。
每个簇内的圆点相互联系,有连线即代表了这些圆点所代表的技术内容同时被研究了,例如以黑色圆点簇为例:A61K(医用配制品)与C07C(无环或碳环化合物)、C01B(非金属化合物)、B01D(分离)等分类号间存在着联系,表明这些分类号所属的专利技术中这些领域同时出现了,即说明在纳米技术领域,医用配制品的研究涉及到了无环或碳环化合物、非金属化合物,以及分离技术等。
4 结 语
本文对共词分析、共引分析与共类分析作了介绍,并通过将这3种共现分析应用到实际专利分析中,详细说明了各种分析所能产 生的结果。虽然说专利分类号是专利审查员通过较为专业的方式给出的,一般都能代表专利 文献所涉及到的研究内容,可以弥补共词分析由于选词误差造成的问题,但共类分析也仍然 存在一些不足,比如有些专利文献只有一个分类号时,则这些专利文献在分析中不会被体现 出来。
在专利分析中,根据不同的数据库可以选择不同的共现分析方法。尤其是在对中国专利进行分析时,由于缺乏引文数据,无法进行共引分析,又由于中国专利文献的标题一般较为简单,不能反映出其所代表文献所包含的大部分内容,因此这种情况下,共类分析是较优的选择。而对于德温特专利数据库,由于该数据库中的专利文献的标题都由领域专家作了二次加工,而且德温特数据库中还有引文数据,所以3种共现分析方法都可以使用。
参考文献
[1]R.N.Kostof.Database tomography:muhidisciplinary research thrusts from co—word analysis[C].Proceedings:Portland International Conference on Management of Engineering and Technology,1991.
[2]Loet Leydesdorff,Liwen Vaughan.Co-occurrence Matrices and their Applications in Information Science:Extending ACA to the Web Environment[J].Journal of the American Society for Information Science and Technology,2006,57(12):1616-1628.
[3]王日芬,宋爽,苗露.共现分析在知识服务中的应用研究[J].现代图书情报技术,2006,135(4):29-34.
[4]庞景安.科学计量研究方法论[M].北京:科学技术文献出版社,2002.
[5]康宇航.一种基于共现分析的科技跟踪方法研究[D].大连理工大学,2008.
[6]谢彩霞,梁立明,王文辉.我国纳米科技论文关键词共现分析[J].情报杂志,2005,(3):69-73.
[7]Sybille Hinze.Bibliographical cartography of an emerging interdisciplinary discipline:the case of bioelectronics[J].Scientomeotics,1994,29(3):353-376.
[8]M A Spasser.Mapping the terrain of pharmacy:Co-classification analysis of the International Pharmaceutical Abstracts database[J].Scientometrics,1997,39(1):77-97.
[9]Joachim Schummer.Multidisciplinarity,interdisciplinarity,and patterns of research collaboration in nanoscience and nanotechnology[J].Scientometrics,2004,59(3):425-465.
[10]Martin Meyer.What do we know about innovation in nanotechnology[J].Scientometrics,2007,70(3):779-810.