APP下载

基于专利分类代码共现分析的行业技术关联趋势研究*——以医学医药行业为例

2021-11-22王莎莎严素梅李建霞

情报杂志 2021年11期
关键词:热点代码关联

王莎莎 严素梅 陈 荣 李建霞

(华东理工大学科技信息研究所 上海 200237)

得益于通信技术的快速发展,知识交流极大地突破了空间与时间的限制,不同领域之间知识的流动、溢出与融合愈发频繁密切,促使技术出现多样化的组合与衍化,联系更为紧密,技术网络结构愈加复杂[1, 2]。技术关联是指某一技术与其他领域技术之间的关联数量以及程度[3]。叶华光[4]认为技术的发展可视作时间的函数,表现为技术的进化过程。而这一过程发生的同时也伴随着技术间关联关系的变化,呈现出技术关联网络结构动态发展的结果。行业视角下的动态技术网络蕴含着该行业在价值创造与发展过程中的方向选择,其实质是技术在创造与转化过程中的助力价值。因此,技术关联正逐步成为社会各界重新认识科研发展以及创新技术的重要战略工具,而探索行业内部技术体系发展和关联关系的演变,有助于深入了解领域技术的关联发展模式,把握多样化技术以及技术之间的知识溢出与溢出距离,帮助企业更高效、更具针对性地利用以及关联跨领域技术,进行关联技术的组合创新,对行业发展及企业建设具有较为重要的指导意义。

1 文献回顾

自1982年Scherer[5]基于企业内部研发数据对其技术之间的关联关系进行量化以来,学界学者围绕技术关联这一主题展开了长期的、持续的发展研究,并通过引入统计学、计量学的相关概念,不断丰富构建技术关联的方法、完善技术关联的结构指标、拓展技术关联的应用领域[6]。目前技术关联的研究主要是以各类基础科研数据为对象进行的,如关注企业内部的技术研发支出经费[5,7-8];对专利文献的引文情况进行追踪[9],识别技术知识流动情况;聚焦于专利文献内容[10],挖掘关键词。但在实际操作中,科研经费获取困难,专利引文则易受经济体及法律关系的影响,而主题挖掘的方法又在极大程度上受限于词切分的准确程度,因此多数学者倾向于利用专利分类代码进行技术表征,将专利文献作为基础数据,构建关联关系,实现技术之间的关联探索。基于专利分类代码的方法可实现性高、准确性好,目前在专利研究领域受到广泛认可。

依据关联侧重点的不同,可将已有研究分为基于技术领域之间知识结构相关相似、重合或互补等情况的等价性关联关系研究与基于技术领域之间知识溢出、知识流向等情况的非等价性关联影响研究两类。

等价性关联研究往往关注技术的基础知识结构,强调技术之间的关系等价性,学界常利用各类统计学指标[11-13]以及相似相关矩阵[14],对技术之间的相似程度、互补程度以及知识共享范围进行深入探讨。例如McGill等[15]设立企业专利之间的交叉引用指标,对比衡量竞争企业内部的知识交叉情况。Benner等[16]为评估企业之间知识与技术的关联程度,选用并引入欧氏距离指标,对技术领域的邻近度进行量化。而非等价性关联研究从知识流动的有向性出发,强调对技术之间影响、发展、完善等关系的细粒度描述。例如黄斌等[17]依据技术代码对内部影响的高低差,将技术代码对划分为同阶影响技术、影响技术以及受影响技术3类。黄鲁成等[18]基于知识的流向性提出关联强度以及关联差值两个指标,以分析揭示产业关联发展过程及其规律。杨冬敏[19]基于专利文本语义对技术关系进行细分标引,研究具体技术之间的继承、完善等关联发展结果。

目前对技术关联趋势的研究多是从技术的基础知识结构出发,从关联的等价性切入,对技术整体的发散性与收敛性[20]、以及技术差距的对比[21]等方向进行的分析,或是单纯从知识的有向流动出发,利用影响的非等价性进行技术演化路径[22]的识别研究。然而不论是关系的等价性还是影响的非等价性,其在相互关联的本质上应是彼此统一、彼此完善的,等价关系前提下的技术范围重合揭示了邻近领域之间知识的溢出性,非等价影响下的知识有向溢出又在形式上表现为技术范围的重合。总体看来,将关系的等价性和影响的非等价性相结合进行技术关联的研究目前还较少,且同时关注行业视角下技术关联趋势的研究尚存在一定空白,因此本文引入交叉影响指标,旨在建立行业视角下的技术关联多维研究模型,对技术密集型行业的技术演变趋势进行综合全面的剖析,以期解决以下三个问题:①技术密集型行业发展进程中,技术结构的整体关联模式特征变化;②热点技术社群的演变情况;③热点技术的路径演变识别。上述问题的解答有助于研究者和企业更好地理解技术关联的内涵,促进技术组合应用,推进学科交叉以及技术融合等理论和实践研究的发展。

2 研究设计

为全面了解行业发展历程中技术的关联模式变化趋势,本文从宏观、中观和微观三个层面,依据关联结构特征,设立指标、构建模型,分别对行业整体技术结构布局演化、热点技术社群演变以及热点技术路径构成进行阐述,总结三个层面的分析结果并对热点研究方向、热点技术的路径演化模式进行预测。整体流程如图1所示,主要包括数据获取、时间段划分、数据处理、关联分析以及总结与预测五个部分。

图1 基于专利代码的技术关联趋势分析流程

2.1数据获取考虑到数据获取的简易性及可操作性,本研究的数据来自于Web of Science平台中的Derwent Innovations Index(DII)数据库,从中获取行业内较具代表性的企业专利数据,构建行业专利数据集。利用专利文献中的分类代码共现情况,构建关联结构,表征技术领域之间的关联关系。

在DII数据库中,每篇专利文献均标引有IPC代码、MC代码以及DC三种代码。三种代码均遵循严格的等级制度,然而由于IPC代码与MC代码层级结构较为繁复,造成代码形式复杂、操作性不高,同时由于对技术领域的过度细分,导致存在一定的信息冗余,经由大量数据的聚类操作之后极可能掩盖部分有价值的信息。而DC代码结构固定,有且仅有两级结构,可操作性较强,因此本研究选择DC代码作为分析对象。

2.2行业发展阶段划分在进行行业发展的解读之前,首先需要对行业的整个发展历程进行特征阶段的划分,将划分后的特征阶段作为时间窗,对比不同阶段窗口下技术之间的关联结果,以达到理解行业技术趋势演变的目的。由此,时间节点的确定以及节点确定的准确程度是研究结果可靠与否的重要前提。张宪义[23]以固定年份作为时间窗进行解读,但固定时间窗的做法与现实行业技术发展的情况相违背,仅适用于稳定时期的发展研究。赵莉晓[24]从生命周期的角度,运用专利申请量绘制技术生命周期曲线,并基于S曲线技术预测理论进行RFID技术趋势发展的推断。该方法由于操作可实现度高且结果较为准确直观,目前已被广泛应用于趋势研究中。因此,本文以专利公开数量作为行业生命周期曲线的绘制依据,以数据变化的具体情况,识别行业发展的时间转折点,定位行业发展的阶段特征。

2.3数据关联处理本研究依据专利分类代码表征技术类型,如果两个分类代码在某专利文献中被共同标引,即认为其二者共现,则其代码表征的技术领域之间存在关联性。统计代码之间的共现情况建立关联矩阵,如矩阵A所示,i与j代表关联代码,矩阵内部的元injm代表in与jm代码之间存在共现关系的数量,即共现频数,共现频数越大,则两个代码表征的技术关联越为密切。

2.4关联分析为研究宏观层面下的整体技术结构布局演化以及中观层面下的热点技术社群演变情况,进行整体技术关联网络以及热点技术关联网络的构建,基于关联关系的等价性,分别研究各个发展窗口下,行业整体技术关联关系的结构演变特征,以及热点技术社群结构及成员变化情况。在微观层面上,基于关联影响的非等价性,以具体某一热点技术主题为研究对象,利用交叉影响强度计算公式,测度各阶段热点技术受关联技术影响的程度指数,依据指数变化识别热点技术的演化路径。涉及的分析方法包括专利计量法、时间序列分析法、社会网络分析法,使用的工具包括Python、Gephi等。

2.4.1 基于结构特征的关联网络分析 社会网络分析法是一种建立在社会网络结构基础上,对群体之间关系数据进行分析的研究方法。借助于该方法,可通过研究个体之间的网络关系,准确高效地将个体微观网络与大规模整体网络的宏观结构进行系统结合。由专利关系构建的网络能够分析技术的演变,并反映技术发展趋势[25],对集群的定性分析具有较大的助力。李佳佳等[21]借助于该方法对风能核心技术进行识别,对比了中、美、欧之间的技术群落发展的异同。曾德明等[26]等构建了基于论文的学科和领域交叉融合网络,用以分析学科交叉融合的路径。张旭[27]立足于专利文献,构建了专利IPC共现网络、引文网络以及关键词网络,并利用主路径分析以及异质信息网络分析,深入挖掘专利文献隐含的关联信息。

本研究基于社会网络分析,将专利分类代码作为网络节点,代码之间的共现关系具象化为节点之间的连接边,节点权重为代码出现频数,边权重为连接节点之间的共现频数。依据行业发展阶段分别构建各个阶段的整体技术关联网络,并依据节点权重析出热点技术关联网络,依据节点与连接边的结构指标计算并分析各个关联网络的关联广度以及关联紧密度特征(如表1),探究整体技术结构演变以及热点技术社群演化模式。

表1 关联网络的结构特征指标

2.4.2 基于影响力的路径演化分析 交叉影响法最早是由Gordon等[28]提出用以预测事物发展前景的方法,主要通过估计每个事件的初始概率以及两个事件之间的条件概率来评估事件的发生概率,在计算概率性的研究中具有较大的应用价值。Choi等[29]在总结和归纳以往学者交叉影响分析方法的基础上,提出了基于专利数据的交叉影响法,并用于技术之间影响关系的研究,即专利交叉影响分析法。依据该方法,代码(技术)j对代码(技术)i的交叉影响计算公式为:

(1)

公式1中,P(i,j)表示技术代码j对技术代码i的影响力强度,C(i∩j)表示代码i与代码j共现的频次,C(i)表示代码i出现的频次,取值范围为[0,1],数值越大,影响力越大。因此,利用专利交叉影响分析法,既可明确技术之间影响的方向,又以定量的方式衡量出影响力大小。通过对比行业各阶段内,某一技术受其关联技术的影响程度变化分析,可识别该技术的发展路径演化方向。

3 实证研究

3.1数据选择及处理

3.1.1 对象选择 医学医药行业作为一个知识密集型行业,其发展始终伴随着技术的不断创新。对医学医药行业的技术关联演化趋势进行研究,了解掌握该行业技术关联发展规律,有助于把握行业发展动向,为企业的决策制定提供理论基础。

为研究医学医药行业的技术关联发展模式,选取2018年《财富》杂志公布的“500强”医学医药相关企业(如表2所示)进行行业专利数据收集。

表2 企业名称、专利权人代码及专利公开量

DII数据库为专利文献中的专利权人对应设立了唯一的代码,其内部建有专利权人代码索引,将专利权人代码作为检索字段可以收集到涵盖集团所有子公司的专利数据,保障了数据的完整性和精准性。以专利权人代码为检索入口,收集1963-2019年的专利数据,共得到医学医药行业专利文献总计149 405篇。

3.1.2 时间窗口划分 专利公开数量的变化,可反映行业内部研发趋势和技术发展动向,展现行业发展历程。统计各年份专利公开量并绘制趋势图,如图2所示。在1974年之前(由于数据库限制,1963年至1966年数据无法进行逐年检索),专利年公开量无明显变化趋势且总体数值均较低。自1975年始,年公开专利数值较为稳定,呈现一定的规律性,但其值始终保持在较低水平。1988年之后,医学医药行业每年公开的专利数量开始大幅度增长,并在2005年达到历年公开量的最大值5611篇。而在2006年之后,专利年公开数量总体呈现出曲折性的下降趋势,且对专利公开量进行逐年比较,发现其曲线变化与行业第一阶段(1963-1973年间)具有一定的相似性,相邻年份之间数据变动较大且增长或减小无明显规律(由于数据公开的滞后性,2019年的专利公开量暂不作考虑)。将医学医药行业发展划分为四个阶段(见图2),分别为1963-1973年间的蛰伏期、1974-1987年间的孕育期、1988-2005年间的快速成长期、2006-2019年间的平台期。

图2 医学医药行业专利年公开量变化趋势图

3.2整体技术关联结构演化分析基于划分窗口对行业的技术关联演化情况进行研究。以专利分类代码为节点、共现关系为边,分别按照四个发展阶段绘制整体技术关联网络图谱,如图3所示。孕育期之后,医学医药行业整体技术关联网络的规模明显增大,网络中节点明显增多,结构趋于复杂化,表明随着时间推移,行业内对技术的多样化应用及掌控能力得以提高,技术之间联系日益多样化,推进了行业的创新发展。

图3 行业各阶段整体技术关联网络图谱

利用上文构建的公式计算行业整体技术关联网络的特征指标,见表3。

表3 行业发展各阶段整体技术关联网络的特征指标

可以看出,医学医药行业整体技术关联网络的演化具有以下特征:

3.2.1 网络关联范围先增大后减小 在医学医药行业从蛰伏期向孕育期过渡的过程中,广度指标的增长最为明显,代码关联率指标增长40%,图密度指标增长63%,此时该行业不论是在技术的关联范围上还是技术的关联规模上均得到较大发展。在孕育期到快速成长期的发展中,代码关联率指标由于数值较高,增长较为有限,因此行业关联范围的增长重心集中在网络密度上,网络内部技术主体关联规模在此时表现出较为明显的增长。到了平台期,代码关联率以及图密度指标均出现小幅度下降,表明在这一时间范围内,以拓宽关联广度范围为主的发展模式已发生一定变化。

3.2.2 关联主体呈现小群体聚集 对比4个阶段的紧密度指标,从蛰伏期到快速成长期,平均聚类系数由0.345逐步增大到0.554,且平均路径长度由2.723逐步减小到1.950,表明网络内部技术的距离不断缩小,聚集程度逐渐增大。而在快速成长期到平台期的演化中,平均路径长度与聚类系数均呈增大趋势,表明网络内部技术更为聚集,但技术主体之间的平均距离却逐渐增大,这一结果表明,在这一时期内网络技术主体之间呈现出了小群体的内部聚集趋势。

3.2.3 关联模式的选择性变化 综合关联范围及紧密度的分析,可发现在医学医药行业发展初期,行业整体技术之间的主要关联模式为拓宽技术关联广度、加强技术关联紧密度两者并进。而在进入平台期后,这种发展模式发生了一定的转变,行业技术之间的关联更具目的性和选择性,因此技术关联的广度范围有所缩小,关联主体小群体聚集,群体内部关联紧密度进一步加强。

3.3热点技术社群个体特性分析在行业整体技术关联网络的基础上,设置节点频次阈值,析出出现频次最高的15位技术代码,定义为热点技术,形成热点技术关联社群网络,如图4所示。从蛰伏期到平台期,可发现热点技术关联社群内部连接线数目明显增多,社群结构趋于复杂化、紧密化。

图4 行业各阶段热点技术关联网络图谱

计算不同阶段热点技术关联网络的特征指标,见表4。

表4 行业发展不同阶段热点技术关联网络的特征指标

对比图形及数据,观察得到医学医药行业热点技术关联网络的演化具有以下特征:

a.社群主体的多样化关联。从蛰伏期到平台期,热点技术社群的图密度指标持续增大,社群内部技术之间的关联组合呈现多样化发展趋势。值得注意的是,行业整体技术关联网络中的图密度在平台期阶段内出现下降趋势,但在热点技术社群网络的平台期阶段,图密度数值始终上升,说明行业内部技术的关联选择是侧重在热点技术之间进行的。

b.社群内部的小世界性。由表4可知,平均聚类系数由0.835稳步增长至0.982,平均路径长度由1.229持续减小至1.019,热点技术社群内部节点聚集程度增大,网络距离缩小,表明热点技术主体的关联关系趋于紧密,呈现较为明显的小世界特性[30]。

c.热点技术主题的阶段性变化。基于4个阶段的具体热点技术绘制热点技术发展路径图,如图5所示。观察可知在行业发展的相邻阶段,其热点技术社群成员存在较大比例的重复,热点技术存在一定继承性。但将蛰伏期与快速发展期、孕育期与平台期的热点技术进行比对可发现其技术主体出现较为明显的变动。这一结果说明医学医药行业热点技术成员在短时间内呈现继承性,但在长时间内这种继承性并不明显,成员变动较大。

图5 热点技术发展路径图

d.热点研究方向的转变性。统计四个阶段热点技术的大类领域构成,分布结果如图6所示。由图可知,随着行业发展,集中在聚合物、农化、通化、纺织领域的热点技术数量逐渐减少,集中在药品、生物技术、工程及仪器测量、运算控制领域的热点技术数量逐渐增加,说明行业热点研究方向呈现出由物质到仪器及工程技术的变化,且这一变化在孕育期至快速成长期的过渡中表现最为明显。

图6 代码大类领域分布图

3.4热点技术路径演化分析依据专利分类代码出现频次的阈值识别出医学医药行业四个发展阶段的热点技术(出现频次前15位的分类代码),并依据其在行业发展不同阶段的动态出现情况,将热点技术分为四种类型:将仅在平台期进入出现频次前15位的专利分类代码定义为新兴热点技术主题;未在平台期进入热点技术划分范围内的为衰落热点技术主题;在四个阶段均属于热点技术的为持续热点技术主题;其余则定义为发展热点技术主题,具体结果如表5所示。

表5 热点技术主题统计表

以表5中的热点技术为对象,分别计算其受关联技术影响的交叉影响指数,并选取4个发展阶段内各自影响力指数最高的前5位技术代码为热点技术高影响代码,绘制影响力变化堆叠面积图,探究热点技术的主题演化路径。由于篇幅限制,本文在此仅从发展热点技术主题中选取D16(发酵、微生物培养、疫苗和抗体生产、细胞和组织培养以及基因工程)、P34(消毒、注射、电疗)和S05(电子医疗设备、电装置、血细胞计数器、电诊断设备)3个技术主题为代表,开展细粒度的热点技术路径演化分析,如图7所示。

(a) (b) (c)

a.技术代码D16在开始阶段受制备结构药物的相关技术影响较大,主要表现为3大方向:催化酶、发酵生产和微生物培养方向。而在进入孕育期后依托于基因层面研究的快速进步,路径发展主要表现为核酸序列的检测及复制等方向,辅以向利用微生物进行药物研制的方向衍生发展。随着行业进入快速成长期阶段,基因层面的研究进一步扩大深入且受各类药物结构的研究影响大幅减弱,路径发展基本表现为对动植物基因层面的筛选检测及编码研究。平台期阶段,D16基于基因层面的研究进一步深入,并向各类抗体及疫苗研制方向以及转基因植物的培育方向演化。

b.技术代码P34的发展方向较为统一,在行业发展的蛰伏期阶段主要表现为较为简单的注射以及消毒研究,在孕育期以及快速成长期阶段,由于电子电器领域技术的快速发展,进而在一定程度上使输入、注射技术出现变革,表现为自动化输入注射装置的开发,以及各类术中血管植入支架等研究的迅速增长。平台期阶段,随着数字运算与控制技术的引入,以及电子电器设备领域的进一步发展,输入技术再次得到进一步的突破,具体表现为智能化的自动监测及药物调节输入装置的研制方向。

c.技术代码S05在医学医药行业的蛰伏期与孕育期阶段,主要向电医疗方向发展,表现为各类输入装置、术中起搏装置以及体征检测装置的研发应用方向。而随着行业发展进入快速成长期,技术发展受到实时体征监测技术的影响,致使路径演化逐渐向电诊断方向过渡,主要表现为体征监测及药物输送智能一体化设备的研究。进入平台期后,电子设备技术又受到数字技术与控制技术的高影响,逐渐向监测-诊断组合技术的方向发展。

综合上述,经过3个模块的层层分析,可得到医学医药行业的关联发展模式以及未来趋势:

a.医学医药行业在早期通过不断引入、建立不同领域技术之间的关联关系以持续拓宽技术关联的范围,在进入平台期后,这种强调关联范围的发展模式向强调关联紧密度的模式转变,技术之间的关联关系呈现一定的目的性及选择性,并且这种模式在之后极可能进一步延续。但结合医学医药行业的专利公开量曲线可知,在之后的某一时间点,伴随着现有技术的突破或新模式的发展,医学医药行业或将脱离平台期,再次进入新一轮的技术发展孕育期。

b.医学医药行业的热点技术社群内部存在小世界性,并且热点技术成员在短时间内呈现继承性,但从长时间来看,其社群内部成员变动较大。总体而言,随着行业发展,热点技术正逐渐由具体物质结构类型、产品生产处理过程向电子技术与工程技术领域倾斜。

c.总结3个热点技术的演化路径:技术代码D16的演化路径为:发酵生产、微生物培养——核酸序列操作、霉菌培育——基因筛选、检测及编码——抗体及疫苗研制、转基因植物培育;技术代码P34的演化路径为:基础注射仪器及消毒操作——自动化输入注射设备、术中血管植入支架装置——体征监测与药物输入为一体的智能化注射装置;技术代码S05的演化路径为:电医疗——电诊断——电诊断、电控制。

分析可发现,以上3个热点技术均受到电子技术、数字计算与控制技术的较大影响,基于数据监测及自动化分析和反馈的技术的广泛应用,结合3.3中行业热点研究方向呈现由物质到仪器及工程技术的变化趋势,预测基于数据算法下的智能化辅助医疗可能是医学医药行业未来的发展方向之一。

4 结论与启示

本研究运用社会网络分析理论以及路径依赖理论,在明确技术间关联系统性的基础上,提出了一种基于趋势演化分析的行业技术发展模式研究模型,并从宏观、中观和微观三个层面切入,基于专利代码共现,构建不同维度下的技术关联关系,依次明确行业内整体技术关联模式,热点技术社群结构演变情况以及识别热点技术的路径演化情况,并以德温特数据库为数据源,以医学医药行业为例进行实证研究。

一方面,本研究所提出模型由行业整体技术内关联、热点技术间关联分析以及热点技术路径识别三个模块组成,各模块之间层层递进,彼此完善,是全面综合剖析各维度行业技术关联情况的研究模型,可在极大程度上避免单一视角导致的片面性结果,帮助研究者更准确更清晰地认知与掌握一个行业的技术发展模式。另一方面,本研究将交叉影响指数引入技术路径演化分析领域,在技术关联内涵的基础上,从技术间影响的非等价性出发,计算热点技术受其关联技术的具体影响程度,以模拟该热点技术路径发展,这一做法不仅可明确影响的方向性,并以一对一的方式准确计算热点技术受关联技术影响力大小,对于提高技术路径发展推演的准确度以及丰富领域主题演化方法体系具有一定意义。

本文基于行业视角进行了技术关联模式研究模型的设计,虽从多层面多维度进行分析,但仍存在一定的局限性,如在研究技术演化路径过程中,无法进一步识别技术之间存在的互补、完善等细粒化关系,在今后的研究中,将针对该问题进行进一步的补究。

猜你喜欢

热点代码关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
热点
创世代码
创世代码
创世代码
创世代码
结合热点做演讲
奇趣搭配
智趣