基于德温特数据库的关键共性技术分析
2016-12-19杜宏巍
杜宏巍
[摘要]文章在界定关键共性技术概念的基础上,以德温特数据库为数据来源,下载了钢铁产业的热处理领域的相关数据。同时,开发了分词系统及数据分类系统,并结合陈超美开发的Citespace软件对相关数据进行了二次螺旋分析。经实验验证,数据分析速度快、结果准确,具有一定的应用及推广价值。
[关键词]关键共性技术;二次螺旋分析;共词分析
[DOI]10.13939/j.cnki.zgsc.2016.31.273
重大关键共性技术在整个技术创新链条中处于基础性地位,是跨产业部门的关键技术,能够为多项其他技术的进步、产业的发展提供支撑,具有广阔的应用前景,为众多用户所使用,规模效用明显。[1]
1关键共性技术辨识系统的构建
由关键共性技术的内在构成要素及其相互关系展开的逻辑顺序,可以把关键共性技术系统过程概括为3个阶段。
1.1数据准备确定数据源
Derwent Innovations Index(DII)是美国科学情报所(ISI)最新推出的基于因特网环境的数据库产品,该数据库将Derwent World Patents Index(DWPI,德温特世界专利索引)与Patents Citation Index(PCI,专利引文索引)加以整合,它收录来自40多个专利机构授权的1000多万基本发明、3000多万个专利,数据每周更新并已回溯至1963年,为研究人员提供了世界范围内的化学、电子与电气以及工程技术领域内综合全面的发明信息,是最为全面的国际专利信息数据库。符合数据源筛选原则,因此确定数据源为德温特世界专利索引数据库。
1.2数据获取
1.2.1特征词的识别
抽取文本特征集的目的是通过将文本特征项(关键词、标引词等)的量化,将它们从一个无结构的原始文本转化为结构化的计算机可以识别处理的信息。通过对文献的回顾可以发现,抽取的文本特征项类型经历了从单纯选用标引词扩展到全文中的自由词汇这样一个发展过程。
选择标引词作为文本特征集时,词汇的使用很规范,也较能反映文献的主题,一直是共现分析操作过程中首选的分析单元。选择自由词作为文本特征集时,需要选择自由词的抽取位置,从标题和摘要中抽取词汇作为文本特征集时能够直接从作者对文章的认识角度理解文本内容,提高对文本内容把握的准确性。从全文中抽词的最大优点是能够保留出现频率不高但非常重要的词汇,同时避免了更新词表、标引文献等不小的工作量。但由于涉及文本切分词等处理,实现的复杂度较高。
总结起来,抽取文本特征集时必须做出两重选择,从何处抽取(可以选择标题、关键词、摘要、全文)和抽取哪种类型的词。本研究对特征词的识别包括标引词汇和自由词汇。
1.2.2特征词的抽取
从关键词、标题、摘要、全文中抽取,抽取词汇的质量依次增高,操作的复杂程度也逐个增强。抽取标引词时,用词规范、词汇间概念关系清晰,但存在可能出现标引偏差和丢失新兴词汇的缺陷。抽取自由词汇时则与上述情况正好相反,该抽取方法能够科学地反映文本内容、跟踪新兴词汇的出现,但词汇的“一词多义”和“一义多词”现象导致数据预处理困难,自由词汇间复杂的语义关系影响分析结果的可解释性。所以应该根据分析目标的不同做出合理选择。可见,词汇抽取结果的有效性和实现的便捷性始终是相互矛盾的,它们互相制约,实际操作中必须找到两者的平衡点,以便利用最简便的方法取得最科学的结果。
综上分析,本文特征词的识别是根据具体的科技跟踪需要,从下载的文本集合中利用我们开发的分词软件自动抽取“标引词”和“自由词”作为反映文献内容的特征值,具体包括“标题”“关键词”“标引词”“作者信息”“引文”等。
1.2.3特征词的选择
词是文献中承载学术概念的最小单位。词频的波动与社会现象、情报现象之间具有内在的关系,一定的社会现象和情报现象必然引起相应的词频波动现象。[2]因此,通过统计关键词、主题词、篇名词等核心词汇在某一类学术文献中所出现的频次,可以判别该学术领域的研究热点、知识结构和发展趋势。
本研究特征词的选择,就是对数据库中的文件进行词频统计分析,形成词频统计文件。借助分词软件将论文标题中使用的单词按照出现的频次由高到低进行降序排列,然后将一些不完整的单词及没有特殊意义的单词从词频列表中删除,同时删除掉那些在科学研究中被普遍应用的、没有代表性的单词,如研究(study)、分析(analysis)等。[3]
当选择确定的特征词后,利用我们开发的数据分类软件,根据特征词将下载数据中包含特征词的数据段落归类,归类后的数据段落作为一个完整的数据集合,可供Citespace软件进行共词聚类分析。
2共词分析
从“技术方法”上看,国内外本阶段共词分析研究注重方法的系统化,将研究对象纳入时空坐标,提高了其应用结果同实际情况的拟合度和置信度,为拓展共词分析的应用范围奠定了基础。同时,运用该阶段方法体系所揭示的信息和对象之间的关联已向深层扩展,初步解决了某些利用相关文献挖掘内隐知识的问题。
从“应用领域”上看,基于共词分析的研究成果可以归纳为:揭示特定科技领域内的研究主题、主题的层级及其关系以及由研究主题所映射的具体研究方向之间的关系,区分科学子领域,确定学科结构;揭示研究主题接近所属领域热点问题的程度;考察特定领域内科学研究主题的变迁和可视化结果;从内联和外联的角度揭示特定领域内研究主题之间以及研究主题同其他主题之间的关系;通过科技环境分析,揭示科技主体的机会和威胁;揭示不同子领域的演化模式及其相互关系,勾画出研究主题的生命周期。[5]
建议聚类分析采用软件为由美国德雷赛尔大学信息科学与技术学院陈超美开发的Citespace。采用一种“突发词检测”算法来确定研究前沿中的概念,利用3个网络(“研究前沿术语的共现”“知识基础文章的同被引”和“研究前沿术语引用知识基础文章”)随着时间演变的情况来寻找研究热点及趋势,并以可视化的方式展示出来。
3结论
本研究依据德温特数据库的分类,并开发了分词系统及数据分类系统,结合陈超美开发的Citespace软件对相关数据进行了二次螺旋分析:利用分词软件进行特征词的识别及抽取,特征词的选择,利用数据分类系统,以特征词为依据进行数据的文本分类,利用Citespace软件对分类后的文本进行共词聚类分析,对得到的共词进行二次文本分析及共词聚类分析。经验证,该研究方法的分析速度及准确度均较理想,可用于研究产业关键共性技术领域。
参考文献:
[1]郭晓林.产业共性技术创新体系及共享机制研究[D].武汉:华中科技大学,2006.8:28.
[2]邓珞华.词频分析[J].武汉大学学报:社会科学版,1987(1):46.
[3]郭卫东.技术预见理论方法及关键技术创新模式研究[D].北京:北京邮电大学,2007(6):64.
[4]吕一博,康宇航.基于共现分析的科技监测地图绘制及实证研究[J].科学学研究,2010,28(10):1460.
[5]蓝玲,胡炜,易法敏.产业共性技术创新与区域产业升级[J].科技管理研究,2009(7):36.