区域科技创新视角下新兴技术竞争情报识别框架构建
2022-09-01龚花萍袁丽哲周江涌
龚花萍 袁丽哲 周江涌
(南昌大学公共政策与管理学院,江西 南昌 330031)
在新一轮科技革命和“大数据”时代的双重背景下,区域科技创新活动日益活跃,区域内部竞争不断加剧。面对错综复杂的区域内外部环境下的趋势性变化,如何充分挖掘区域科技竞争情报,抢占科技创新先机并争夺区域核心竞争力制高点,成为区域科技创新过程中不可忽视的重要议题。新兴技术作为传统产业改造升级的重要催化剂,一直在区域科技创新活动中扮演先导性角色,新兴技术识别也一直是技术竞争情报领域和科技创新活动中重点关注的研究方向,如何在信息日益庞杂、技术日益细化的区域科技创新环境下,针对新兴技术进行竞争情报识别,对于区域创新系统中各类创新主体都具有重大意义。但目前对于区域科技创新与新兴技术的联系及其竞争情报识别方法等的研究较为松散,缺乏较为系统性的整体识别框架研究。
本文以区域创新系统理论和竞争情报理论为着力点,构建面向区域科技创新的新兴技术识别指标体系,在此基础上构建面向区域科技创新的新兴技术竞争情报识别框架,并以图像检索领域专利识别为例验证其识别框架的可实践性与合理性,实现在区域科技创新环境下新兴技术竞争情报定量化、规模化和程序化识别,以期能从情报学视角为区域科技创新提供新兴技术识别的竞争情报支持和方法参考,以此贯彻国家区域协调发展战略,助力完善国家创新区域布局和区域科技创新活动的顺利开展。
1 文献综述
“区域科技创新”这一概念最初源于20世纪90年代末Cooke P N等学者提出的区域创新系统(Regional Innovation System,RIS)理论[1],区域科技创新产生于区域创新系统,是区域创新系统的重要组成部分,如图1所示。在区域创新系统内部,政府组织、科研机构、企业等各类创新主体之间表现出相互分工、相互协作、相互关联的协同关系,共同利用创新要素和创新资源营造创新氛围。叶振宇[2]认为,区域科技创新核心主体在推动新兴技术突破与产业升级中扮演了重要的中坚力量角色,而新兴技术的突破升级也势必改变区域产业发展的技术创新路径,进而促进区域科技创新中各类创新主体加快构建创新体系的步伐,因此,受区域科技创新主体需求驱动的新兴技术竞争情报在区域创新中扮演了更为重要的角色。
图1 区域创新系统与区域科技创新
目前,学界就“新兴技术”的概念界定与特征尚未达成共识,这也为区域科技创新视角下新兴技术概念特征提供了可扩展空间。现有新兴技术理论研究针对不同研究问题给出了不同的定义和特征,主要聚焦于根本创新性[3]、相对增长性[4]、不确定性[5]等。Breitzman A等通过专利引文工具定位新兴技术验证了集群性作为新兴技术特征的合理性[6]。李仕明等认为,新兴技术具有“赢者通吃”(Winner-take-all)属性[7],即拥有新兴技术意味着拥有了市场竞争的绝对优势。
近年来,新兴技术竞争情报识别研究逐渐受到学界和社会各方的关注,新兴技术的竞争情报支持也一直是国家及产业R&D战略决策中重点关注的对象。现有相关研究多聚焦于技术层面的新兴技术竞争情报识别,提出了许多卓有成效的识别技术与方法。从新兴技术识别的数据表示方法的角度来看,国内外相关研究大体可分为3类。第一类是基于文本主题挖掘的识别对象数据表示。如张嶷[8]基于K-Means主题聚类方法,提出了语义TRIZ的新兴技术识别模型。Porter A L等[9]则从术语层面着手,通过对抽取的专利术语计算新兴分数的方法来筛选新兴技术主题。第二类是基于共现聚类的识别对象数据表示。如陈亮等[10]通过对专利集合文本中不同时间段的术语共现情况进行同质块建模,并分析频次变化率来识别新兴技术系统及构成要素。Glänzel W等[11]从观测对象的时序关联出发,揭示分类号聚类在不同时间截面上体现的持续性等新兴技术特征。第三类是基于引文网络分析的识别对象数据表示。如肖彬[12]通过引入结构洞中的有效规模、效率、限制度、等级度等指标来对动态技术轨道的演变趋势与发展方向进行评价,验证了基于专利引文网络的技术轨道评价模型的有效性。
综上,当前国内外有关新兴技术识别的数据表示方法趋于多样化,但仍体现出一些不足:一是现有研究多倾向于对新兴技术识别技术方法的探索,对基于新兴技术本质内核的指标构建研究相对较少;二是已有研究往往将新兴技术视作单独整体看待,割裂了新兴技术与其演变环境要素的联系,特别是缺乏将其置于区域科技创新环境中并作为科技创新产物予以识别;三是关于新兴技术识别与竞争情报研究有机结合的理论研究稍显不足,缺乏对于新兴技术竞争情报识别整合框架的尝试,这也为本文提供了研究空间。由此可引出本文研究思路和拟解决问题:
第一,如何挖掘新兴技术主题并构建面向区域科技创新的新兴技术识别指标体系以实现新兴技术识别的模块化、程序化;第二,如何构建面向区域科技创新的新兴技术竞争情报识别框架以满足区域科技创新活动中各类创新主体对于新兴技术竞争情报的自动化、规模化和定量化识别的需求。
因此,针对当前新兴技术识别指标体系的不足和区域新兴技术竞争情报识别框架的缺乏,本文综合利用基于LDA的文本挖掘方法、文献计量法和CRITIC客观赋权法,构建基于专利文本主题挖掘的区域新兴技术竞争情报识别体系,实现对新兴技术的模块化、定量化识别;并引入区域创新系统理论和竞争情报理论方法,构建“三维四级”结构的面向区域科技创新的新兴技术竞争情报识别分层框架。综合来看,本文创新地整合了面向区域科技创新的新兴技术竞争情报识别框架,将区域创新系统理论与竞争情报理论融于一体,为情报学、科学学、技术管理学等交叉研究做出了有益探索,具有一定的理论创新价值;同时创新了区域创新视角下新兴技术识别指标体系,为区域科技创新提供新兴技术识别的竞争情报支持和方法参考,对深入实施创新驱动发展战略和区域协调发展战略、加快提升区域科技创新能力、支撑引领经济社会高质量发展具有重要的现实意义。
2 研究方法
本文意在构建面向区域科技创新的新兴技术竞争情报识别体系,并整合其识别流程框架。该环节的创新性在于通过专利文献元数据著录项表征区域科技创新中新兴技术的特点,并与文本主题挖掘方法相结合,实现对新兴技术较细粒度的识别,有效提高了识别精确度。
2.1 数据采集与萃取
数据的采集与萃取是识别技术主题、获取技术竞争情报的基础与前提。专利文献是传递技术创新信息的重要载体,专利申请与授权情况通常被视作是区域科技创新活动的晴雨表,以专利文献为载体预测区域科技创新活动中的新兴技术具有一定的科学性和可行性。本文选择中国知识产权局专利数据库(SIPO)的专利文献作为文本挖掘数据源。
本文将采集的专利文献进行清洗、去噪并提取专利标题与摘要作为语料库内容,数据预处理环节包括分词、去停用词、词性标注与筛选等步骤。其中,选择ICTCLAS汉语分词系统作为分词和词性标注工具,并添加相关专业领域的Sougou细胞词库作为领域词典的补充,之后筛除无实际意义的干扰词性的词及停用词。停用词的选取参考了俞琰等[13]的基于辅助集的领域停用词典构建方法并进行了改进,即选取同一时期除识别对象专利所在分类号部类之外的其余各部类的1 000条随机专利的标题和摘要作为辅助文本集,通过LDA模型和计算词的类别信息熵的方法遴选出熵值较高的领域停用词,并与哈工大停用词表等通用词表合并组成本文的领域停用词表。
2.2 LDA主题模型的构建
LDA(Latent Dirichlet Allocation)主题模型作为一种无监督概率模型,能够实现海量数据源的高通量处理,减少了人工处理成本,可用于大规模专利文本集或语料库的潜在主题的挖掘,符合本文构建面向区域科技创新的新兴技术竞争情报识别框架的需求。因此,本文利用LDA主题模型实现对专利技术主题的识别,模型运算通过R语言集成开发环境Rstudio进行。LDA主题模型通过将语料库的文档转化为词频向量的方法来实现文本信息到易于建模的数字信息的转化[14],初始参数设置是LDA建模过程中的重要环节。其中,超参数α和β的设置参考了Asuncion A U等学者的研究结论[15],设定α=50/K,β=0.01。最优主题数K的取值则通过度量困惑度(Perplexity)来确定。在一定阈值内,困惑度与主题数目成反比关系并且困惑度越小说明模型的推广性也就越强,当困惑度逐渐收敛并趋于稳定值时即代表模型拟合效果最优[14]。
2.3 新兴技术主题识别指标
在新兴技术竞争情报识别体系中嵌入新兴技术识别指标能够更好地将识别流程模式化。文献调研发现,大多数识别指标对于新兴技术特征的表征力不够充分,而不同指标在不同领域新兴技术的识别效果中表现出显著差异[16]。因此,本文结合新兴技术的内涵和特征,融入区域科技创新环境要素来构建面向区域科技创新的新兴技术识别指标。
1)技术创新性。专利IPC号一般由一个主分类号和其余副分类号组成,相较于副分类号,IPC主分类号更能表明一项专利的技术源头和知识重组情况,是专利技术发明信息的重要体现[17]。如果某一专利技术主题下含有的IPC主分类号小类的类别数量越多,则说明该技术主题内部涵盖内容较广,知识重组情况较好,而不同类别的知识与知识之间重组的情况越好,则越是能碰撞出新的火花,更容易产生出新颖的创新技术发现,因此IPC主分类号小类的类别数量在一定程度上能反映出该技术主题所代表的新兴技术创新性。
2)增长性。相对增长性是新兴技术的重要本质特征之一,即新兴技术发展速度要远高于同领域的其他技术,一般通过技术主题下的专利年增长情况来衡量其技术的相对增长性[18]。
3)新颖性。新兴技术可以被形象地解读为同时具备“新”“兴”特点的技术,“新”不仅表现为技术维上的创新性,也表现为时间维上的新颖性,即在时间层面上,新兴技术应是在发展初期不断兴起和涌现的技术。新颖性映射在专利文献中则表现为专利授权年的大小,平均专利授权时间越晚则表明该技术的新颖性越好,成为新兴技术的可能性也就越高。
4)规模。新兴技术的规模性也是较常见的表征潜在新兴技术的指标之一,如兰德公司在其一份关于专利技术涌现的研究报告中,将专利数量作为一项识别新兴技术涌现的指标[19]。
5)市场潜力。在区域科技创新环境下,专利技术创新主体能在实现创新功能后,通过与区域环境等因素的作用维持创新的运行和实现创新的持续发展,使其专利技术在一定的区域空间范围内具有一定的市场占有性和排他性。例如华宏鸣等曾就新兴技术的商业属性做出定义,并且强调一项尚未商业化的新兴技术应当具有在后续3~5年内可被商业化的市场潜力[20]。现有研究方案鲜有采用IPC副分类号类别数来间接测量新兴技术市场潜力,不过鉴于IPC副分类号是专利技术应用终端的重要表征[17],一定程度上IPC副分类号越多,则代表专利技术的应用终端涉及范围越广泛。而技术应用范围越广,则代表通过商业手段来控制市场的能力也越强,所以根据IPC副分类号类别数来体现专利技术的市场占有性和排他性[21]具有一定可行性。
6)研发系数。在专利的技术研发阶段,专利的发明人数量和专利申请人数量在一定程度上代表了专利的技术质量情况[22]。在区域科技创新环境中,一项专利的技术研发通常涉及生产企业、研究与开发机构、高等院校、地方政府机构和服务机构等多个创新主体。同时一项新兴技术的顺利研发也离不开区域科技创新环境内各机构和人员在资金、资源、知识和人力等创新要素方面的投入和支持。这也意味着发明人数量在一定程度上决定了专利从知识转化为技术过程中的知识基础和技术质量,而专利申请人的多寡则表明了新兴技术的技术和经济支撑。因此,本文设置研发系数这一指标,通过分别计算发明人系数和专利权人系数并赋权加总后得到。其中,发明人系数为专利数与发明人数的比值,专利权人系数为专利申请数与专利申请人的比值,两者权重通过熵值法确定。
7)协同性。相关学者研究表明,不同创新主体间的协作研发相较于独立创新更能提升专利技术质量,促进新兴技术发展[23-25]。由于新兴技术的高度不确定性和复杂性,区域科技创新环境中的单类创新主体很难同时拥有资金、资源、知识、政策支持等,这就要求不同创新主体之间共同协作,降低研发风险。创新主体之间相互关联,构成创新系统的组织结构和空间结构,通过协同合作并与所处环境相互作用进而实现新兴技术的顺利研发。因而可以认为,在区域创新技术领域内创新主体的协同性越强,越有利于该技术内部创新主体间的创新协作和资源要素的整合,该技术就越有可能成为新兴技术。基于区域创新系统理论,本文引入三螺旋模型(Triple Helix,TH)中的协合度(Synergy)这一概念来计算区域科技创新主体协同性。TH理论认为,区域创新系统中的各类创新主体之间存在着犹如螺旋线般的协同创新、相互作用的互动关系[26],其创新模式可用物理学中的“场”表示,如图2所示。通过引入互信息(Mutual Information)和转接量(Transmission)可实现对三维创新主体协合度T的测量,计算公式为[27]:
图2 区域科技创新三螺旋创新能力场模型
TXYZ=HX+HY+HZ-HXY-HXZ-HYZ+HXYZ
(1)
式中,HX为一维变量X的信息熵,HXY为二维变量X、Y的互信息。
限于篇幅,本文仅给出协合度T的计算公式,具体计算过程与步骤则通过Leydesdorff L等开发的TH4.exe程序实现[28]。
综上,本文构建的面向区域科技创新的新兴技术主题识别指标如表1所示。
表1 面向区域科技创新的新兴技术主题识别指标
2.4 新兴技术综合得分的计算
利用新兴技术识别指标体系识别新兴技术,本质上可被视作是一个基于多属性决策的综合评价问题。CRITIC法不依赖于专家意见,而是依据指标间数据的波动性和相关关系对系统整体的影响,通过计算指标信息量来确定各指标权重,是一种适用于多元准则的客观综合评价方法。
(2)
据此,经过归一化处理后的第j个指标的客观权重Wj为:
(3)
由于各个指标的量纲和数量级不尽相同,因此赋权之前需对数据进行无化量纲和正向化处理。鉴于本文构建的识别指标皆为极大型指标,因此无化量纲采用如下公式:
(4)
式中,xij为第i个技术的第j项指标的数值,mjmin=min(xij),mjmax=max(xij)。
3 面向区域科技创新的新兴技术竞争情报识别框架构建
本文基于已归纳出的7个面向区域科技创新的新兴技术主题识别指标构建“三维四级”结构的面向区域科技创新的新兴技术竞争情报识别框架,以期为新兴技术竞争情报识别研究和实践提供理论框架支持和方法参考。此框架主要由4个部分组成,分别为数据层、算法层、框架层和目标层。数据层是新兴技术竞争情报识别框架的基础,负责为各个竞争情报识别模块提供情报源;算法层是本框架的核心所在,负责嵌入框架层,通过与框架层的交互与反馈实现新兴技术的抽取和识别,在新兴技术竞争情报识别框架中充当底层架构角色;框架层是新兴技术竞争情报识别框架的主体,承担了识别框架中的主要功能和识别模块;目标层则是本框架的主题与目标所在,承担技术落地与应用实现,通过以框架层输出的新兴技术识别信息为原料,实现对新兴技术竞争情报的识别与分析。此外,4个层级又与区域竞争情报识别的3个阶段高度契合,由数据层实现竞争情报采集,数据驱动的算法层和框架层则共同服务于情报加工阶段,并通过技术驱动实现目标层的情报识别功能的应用。识别框架如图3所示。
图3 面向区域科技创新的新兴技术竞争情报识别框架
整体而言,数据层、算法层、框架层、目标层4个层面从下到上相互支撑有机融合,共同以区域新兴技术竞争情报的实际需求为根本点和出发点,在算法层和框架层构成的情报加工阶段将面向区域科技创新的新兴技术主题识别指标体系融入新兴技术识别模型库中,借助文本挖掘和定量分析方法,实现规模化、模块化的新兴技术竞争情报识别,从而推动区域科技创新的新兴技术识别体系的完善和竞争情报服务模式的优化。
3.1 数据层
数据层以数据中枢模块为中心,连接区域竞争情报需求主体和技术情报供给方两端,形成了“需求—数据—供给”的三层联动供给服务模式[30]。现有研究往往忽略了新兴技术竞争情报识别作为区域创新系统的一环与其他创新要素的重要联系,而在区域科技创新环境中,新兴技术竞争情报源很大程度上也受到区域竞争情报需求主体和技术情报供给方双方的共同影响和定义。一方面,竞争情报的识别始于用户及其需求的定义,底层数据(即竞争情报数据库)的建设离不开用户(即区域创新主体)需求的指导,将用户的需求作为出发点和落脚点,以用户需求为源动力驱动新兴技术竞争情报源的开展;另一方面,竞争情报供给方的角色不尽相同,不同供给方之间因驱动程序、访问流程、数据格式等因素形成的异构数据问题值得关注,因此技术情报供给方对于情报角色和内容的定义也显得尤为重要。
因此,数据中心作为情报源传输链条的中枢,首要工作是通过对区域创新主体的用户及其需求定义,确定竞争情报用户关于功能、服务、技术、数据等方面的需求,技术情报供给方则通过对情报进行角色和内容的定义并将情报反馈至数据中心,数据中心对两股信息流进行情报需求和情报定义比对后输出并存入新兴技术竞争情报数据库,至此完成高效、有序的底层数据建设。数据层运作原理如图4所示。
图4 需求驱动的区域科技创新新兴技术竞争情报采集——数据层
3.2 算法层
算法层是整个识别框架的灵魂,也是优化新兴技术主题识别效果、提升竞争情报识别框架效能的技术基点。同时,算法层也扮演着连接框架层与数据层的技术桥梁角色,不仅能够弥补数据层在底层数据建设方面的缺陷,并且对于框架层而言,数据挖掘算法可有效进行知识提取,通过客观知识表示发现有用的知识和模式。
算法层集成了区域新兴技术竞争情报识别过程中需要运用的文本挖掘算法以及与新兴技术相关的专利指标逻辑算法等。算法层分为多个子模块,每个子模块针对识别框架的子功能予以实现,便于提升识别框架各模块功能的重用性。架构上,算法层集成了数据预处理、新兴技术识别和综合评价3个算法集,在信息技术识别算法集中的专利新兴技术指标部分,加入了由创新性、增长性、新颖性、规模、市场潜力、研发系数、协同性7个指标构成的新兴技术识别指标体系,并通过在评价算法集中对模型库中新兴技术识别指标体系7个指标的灵活更新,大大增强了该框架的灵活性和适用性。图5为算法层各算法集流程图。
图5 数据驱动的区域科技创新新兴技术竞争情报加工——算法层
3.3 框架层
框架层封装了新兴技术竞争情报加工的相关算法集和模型库,是识别框架的主体部分,隶属于数据驱动的新兴技术竞争情报加工环节,负责数据预处理、新兴技术主题抽取、新兴技术主题识别等重要环节。同时框架层集成了包括新兴技术识别指标体系在内的模型库,除了以创新性、增长性、新颖性、规模作为常规专利指标以外,加入研发系数、协同性、市场潜力作为区域创新指标,共同参与新兴技术识别过程。综合信息分析、文本挖掘、综合评价、数据集成等技术,可实现对数据层提供的竞争情报源的定量化、模块化、规模化的信息处理与集成功能。
结构上,框架层由数据预处理模块、新兴技术主题识别模块和模型库构成。数据预处理模块对竞争情报数据库提供的数据进行预处理,并将处理结果存储在语料库中。新兴技术主题识别模块以LDA主题模型为底层实现原理,实现新兴技术主题聚类,并调用模型库中的新兴技术识别指标体系计算新兴技术综合得分,将竞争情报识别结果存入新兴技术竞争情报知识库。模型库则提供一系列计算模型,为新兴技术识别模块提供细粒度识别方法。图6为框架层各模块示意图。
图6 数据驱动的区域科技创新新兴技术竞争情报加工——框架层
3.4 目标层
目标层是识别框架的最高层级,面向竞争情报识别流程的最终环节——情报识别,通过对竞争情报知识库提供的情报产品进行分析,形成新兴技术竞争情报分析报告。该层以竞争情报知识库为起点,以新兴技术竞争情报分析报告为目标,依托于区域科技创新主体各级信息分析部门,服务于区域新兴技术竞争情报需求。
区域科技创新竞争情报服务对于技术竞争情报的需求比例较高[30],而传统的竞争情报供给服务模式已无法满足日新月异的区域科技创新活动对于技术竞争情报服务的需求。龚花萍等[30]学者的研究结果表明,区域科技创新活动对于情报分析的需求最为突出,而包括专利、标准等在内的商业数据库情报源仍然是区域科技创新主体最为依赖的基础信息获取渠道,这意味着在区域新兴技术竞争情报识别链条的最后一环,信息分析部门依然需要参与其中并发挥重要的“情报中转站”作用。此外,由区域创新主体协作共享竞争情报的服务模式是满足各类创新主体多元化、融合的竞争情报需求的最优选择[30],因此在目标层的框架设计中,各级信息分析部门在对竞争情报知识库的情报加工、分析、整合的基础上,还应建立起新兴技术竞争情报知识库与区域新兴技术竞争情报需求的关联映射关系,以及新兴技术竞争情报产品与竞争情报需求之间的匹配、反馈机制,从而为区域创新活动提供更好的新兴技术竞争情报支持。目标层如图7所示。
图7 技术驱动的区域科技创新新兴技术竞争情报识别——目标层
4 实证分析
图像检索技术是国家新一代信息技术产业中软件开发产业的关键技术领域,是人工智能行业重点支持和发展的对象[31]。在多媒体技术不断深入发展的互联网时代,图像检索技术作为重要关键技术不断融入区域科技创新环境下战略新兴产业的升级改造,应用前景十分广阔。因此,本文选取图像检索领域作为实证研究对象来验证新兴技术竞争情报识别框架的可行性。
4.1 数据获取与预处理
1)数据获取
本文在SIPO数据库进行专利检索,检索时间为2021年2月27日,检索主题词为图像检索或视觉检索,专利申请时间限制为2011—2020年。本文通过自定义Python爬虫脚本批量采集专利文献信息,将检索结果中的所需专利字段保存在本地数据库,对数据库中的专利条目进行数据去噪和清洗后得到有效专利记录7 416条。
2)数据预处理
摘取专利集中的标题和摘要字段作为待分析文本集,利用ICTCLAS分词工具对文本集进行分词与词性标注并做去停用词处理。其中,专业领域词典补充了图像检索、图像识别、计算机处理等相关领域的Sougou细胞词库,领域停用词表则在分析辅助集的基础上构建。统计分析发现,采集到的有效专利集的分类号主要集中在G、H两大部类,按照前文设计的方法将辅助集定位于A~F部的专利文献,选取辅助集中类别信息熵值较高的前100个词确定为领域停用词。经过数据预处理后得到包含7 416个文档共233 268个关键词的语料库,再将其经过TF-IDF文本向量化处理,转化成LDA主题模型可分析的向量数据格式。
4.2 图像检索领域新兴技术主题识别
1)技术主题抽取
LDA初始参数α、β、K按照前文提供的方法设置。考虑到图像检索领域为较细领域,技术主题不宜过多,因此事先设置主题数范围为10~50,以步长为2进行迭代计算,最后根据困惑度计算得出48为最优主题数,即图像检索领域包含48个子技术主题。将数据导入Rstudio中,生成DTM矩阵,利用LDA主题模型进行文本主题挖掘,抽样方法选择Gibbs抽样,迭代后生成文档—主题概率矩阵和主题—词概率矩阵,在此基础上可计算技术主题综合得分和标注技术主题名称。限于篇幅,本文仅列出部分技术主题词分布情况,如表2所示。
表2 图像检索领域技术主题词分布表
2)新兴技术综合得分计算
通过Navicat软件对本地数据库中48个技术主题所含专利的专利数、授权年份、IPC分类号、申请人、发明人等字段进行分类、筛选、导出,再利用Excel软件统计相应指标所需数值,详细数据如表3所示。
表3 图像检索领域部分技术主题计量值
其中,分别计算专利权人系数和发明人系数,并通过熵权法确定二者权重后相加得到研发系数,详细权重如表4所示。
表4 图像检索领域研发系数指标赋权结果
综合表3与表4,可得到技术主题各个指标值,如表5所示。
表5 图像检索领域部分技术主题指标值
根据前文给出的改进CRITIC法权重计算方法,本文先将各技术主题指标值进行无化量纲处理,再对各项指标进行赋权,赋权结果如表6所示。
依据表6给出的新兴技术识别指标权重系数,可计算各项潜在新兴技术主题的综合得分,部分新兴技术综合得分如表7所示。根据前文得到的主题—词概率分布矩阵,可选取每个新兴技术主题前10个高频词作为该项新兴技术人工标注的依据。
表6 图像检索领域新兴技术识别指标权重系数
表7 图像检索领域新兴技术主题识别结果
4.3 图像检索领域新兴技术主题分析
经上述实证分析计算得出图像检索领域48项备选新兴技术的综合得分,这里选取综合得分排序靠前且较有区分度的前3项技术进行新兴技术主题分析。图8为各技术主题的高频词概率分布情况。
图8 图像检索领域新兴技术高频关键词分布矩形树状图
从图8(a)给出的新兴技术Topic6的前10个高频关键词可以判断该项新兴技术为基于深度学习的图像检索相关技术;从图8(b)给出的新兴技术Topic1的前10个高频关键词可以判断该项新兴技术是与图像检索有关的大规模分布式数据处理系统;从图8(c)给出的新兴技术Topic30的前10个高频关键词可以判断该项新兴技术是与医疗影像相关的图像处理与检索技术。
①以深度学习为代表的机器学习技术在计算机视觉领域的应用最为成功,被广泛应用于图像检索、人脸识别、行为分析和目标跟踪等诸多领域。计算机视觉受到学界和业界的重点关注,在政策方面也是国家重点扶持和发展的对象[31]。艾媒咨询相关调查报告分析指出,深度学习、高层语义分割等将是未来计算机视觉产业链横向推进过程中重点研究的领域[32];②大规模分布式图像数据处理系统是大数据时代的产物。受当前互联网时代和人工智能高速发展的影响,关于图像、视频等多媒体视觉信息的数据存储与处理已成为推进人工智能战略布局的重要议题,受到国家政策的大力支持[33],具有广阔的发展前景;③医疗影像图像处理与检索技术是数字医疗技术的重要分支,目前在医疗诊断、健康管理、远程医疗等领域大放异彩,是一项蓬勃发展、拥有巨大潜力的数字医疗新兴技术[34],国家四部委曾联合发文要重点培育包括医疗影像辅助诊断系统在内的新一代人工智能产品[53],可见该项技术是未来图像检索与处理领域发展布局的重要对象。
综上,本文分析了所识别出的3项新兴技术的相关技术信息及应用现状,可见本文新兴技术识别结果与业界和学界的分析基本保持一致,验证了面向区域科技创新的新兴技术竞争情报识别框架的准确性和可行性。
5 结束语
本文在现有新兴技术识别研究基础上,嵌入区域创新系统理论和竞争情报理论,设计了市场潜力、研发系数、协同性3项区域创新型新兴技术识别指标并构建了基于区域科技创新的新兴技术识别指标体系,据此从理论层面设计了一种面向区域科技创新的新兴技术竞争情报识别框架,并利用专利文献数据开展了新兴技术主题识别研究,验证其识别框架的可实践性。
本文在研究方法和实证数据方面还存在一定局限,需要进一步完善。首先是LDA主题模型在主题层次聚类方面的不足,无法揭示潜在主题之间的层次概念关系和多层语义关联,后续研究将采用知识挖掘方法从语义层面对新兴技术主题抽取方法进行改进;其次,本文实证选取的数据样本尚未考虑到多源异构数据对识别结果的影响,所构建的新兴技术识别方法在面对多源信息时的适用性还有待进一步实证分析和验证。