APP下载

突破式创新发明人的合作倾向

2024-05-06余博文刘向

情报学报 2024年3期
关键词:发明人专利节点

余博文,刘向

(华中师范大学信息管理学院,武汉 430079)

0 引 言

在科技经济全球化环境下,为了提高竞争力,越来越多的组织或个人在发明创新上选择合作[1],合作创新被实践证明是提高创新效率的重要途径之一[2]。一直以来,专利合作是科技创新与社会关系网络领域关注的重要话题,尤其是产学研之间合作情况和创新绩效的关系[3]、专利发明人合作网络的网络特征[4]等。大量研究表明,具有相同属性的创新个体倾向于相互合作,合作网络具有同配性[5-7]。现有关于合作网络的研究通常关注对特定网络的特征进行揭示,如网络的同配性[8]、度相关性[9]等,结合创新个体自身的属性的研究较少,如对突破式创新发明人的合作倾向的研究。突破式创新发明人具有产出突破式科技成果的能力,培养突破式创新发明人是实施人才强国的全方位战略[10]。对这一类型发明人的合作倾向进行研究,既有助于揭示这一群体的合作特点,也有助于突破式创新发明人的发现和培养。

基于上述原因,首先,本文基于专利数据,划分科技发明人的创新类型;其次,根据网络科学理论构建科技发明人合作网络,分析突破式创新发明人在科研过程中的合作倾向;最后,采用随机图理论构建合作网络的零模型,并对突破式创新发明人的合作倾向进行分析和检验。

1 相关研究

“突破式技术创新”概念最早由Christensen[11]提出。突破式技术创新是指对原有技术的重大革新,产生了技术和发展路线的颠覆效应[12-13]。“持续式技术创新”是相对的概念,指的是对现有技术渐进式、增量式的改进,是在现有需求的基础上对现有产品或技术进行的微小改进或过程创新[14-15]。对发明人类型的研究主要是依据发明人影响力的不同将其分为不同的类型,针对“明星发明人”(star in‐ventors)的定义与特征挖掘已有大量研究[16-17]。Schiffauerova等[18]综合考虑发明人公开的专利数量和专利的平均权利要求数量,将发明人划分为不同等级。刘向等[19]依据发明人的突破式与持续式创新值,将高被引发明人进一步划分为“复合型”“巩固型”“突破型”和“发展型”四种类型。

研发合作是创新的重要途径,学者们对高影响力研究开发群体的合作情况颇有研究。Almeida等[20]发现高影响力发明人在合作时研究领域上具有差异性,且高影响力发明人组成的团队存在更大的研究领域差异性,表明高影响力发明人倾向于研究多种学科领域。Beaudry等[21]研究了加拿大纳米技术领域的发明人合作对专利质量的影响,发现拥有更多核心发明者的研究团队能够生产更高质量的专利。Wu等[22]研究发现,小规模团队倾向于产出突破式创新成果。

关于发明人的合作倾向问题。王宇开等[23]对专利发明人合作中的性别偏好问题进行分析,发现发明人团队中广泛存在“同质性”合作偏好的现象,即男性更愿意与男性合作,而女性则被动地只能更多地与女性合作。Azagra-Caro[24]对科研人员与企业的特征分析,发现科研人员的工作经验与学科背景会影响其参加科研工作的热情。D'Este等[25]对英国企业进行了实证研究,发现低质量大学更倾向于在应用型研究上与企业进行合作。Wang等[8]发现科研年龄较长的科研人员倾向于有更多合作者,并且这一类人群倾向于相互合作。

突破式创新发明人有没有合作倾向呢?他们更愿意与突破式创新发明人合作,还是与持续式创新发明人合作?针对上述问题,本文尝试从技术创新类型的度量方法出发,定义突破式创新发明人与持续式创新发明人的度量方法,基于发明人合作网络分析和揭示突破式创新发明人的合作倾向。

2 发明人创新类型的划分

2.1 专利创新类型度量指标

专利之间的引用关系既体现了知识的流动方向,也体现了一项技术对更早的一项或多项技术的继承和发展。专利的被引情况则能体现一项技术的重要性和创新程度。Funk等[26]提出CD指数用于测量一项技术的变革程度;Chen等[27]将该指数拆成D指数和C指数两个指标,分别用于度量一项技术的突破式与持续式创新性;Wu等[22]将CD指数进行了简化,计算方法为

图1为一件专利v在专利引用网络中的引用与被引情况,菱形表示目标专利v,圆形表示专利v的参考专利q。一件专利引用专利v和q存在三种情况:第一,仅引用专利v,记作专利i;第二,仅引用专利q,记作专利k;第三,既引用专利v也引用专利q,记作专利j。将专利i、j、k的数目分别记为ni、nj、nk。

图1 专利CD指数的计算方式

CD指数的思路:当一件突破式技术创新专利P公开后,后续专利对这件专利P的前代专利的引用会大幅减少,即专利P代表的技术相对于老技术具有完全替代性和突破性。由公式(1)可知,CD指数的范围是-1~1。突破式技术创新专利的CD指数大于0,持续式技术创新专利的CD指数小于0[26]。CD指数的绝对值越大,表明专利具有越强的突破性或持续性。Wu等[22]通过CD指数来衡量科研团队产出成果的突破性,发现大团队与小团队在产出成果突破性上存在差异。Park等[28]通过CD指数探究了不同时段的专利的突破性,发现随着时间推移专利的突破性逐渐降低。

2.2 发明人创新类型的度量方法

发明人的创新类型与该发明人所持有专利的创新类型有关。由于一位发明人公开的专利数量可能有多件,并且多件专利的技术创新类型可能不同,因此,需要通过发明人的专利来定义发明人创新类型。例如,刘向等[19]取一位发明人所有专利创新值的中位数作为发明人创新类型的评估指标。考虑到在不同领域内突破式创新技术的占比不同,本文将一位发明人公开的所有专利的CD指数的最大值的符号作为该发明人创新类型的度量指标,记作MaxCD,则第i位发明人的创新类型计算过程为

其中,Ni表示第i位发明人公开的专利数量;CDij表示第i位发明人公开的第j件专利的CD值;sign(x)表示符号函数。该指标值的正负分别将发明人划分为突破式与持续式创新发明人。

一件专利在公开之后,其CD指数的符号一般不会发生改变。例如,1980年公开的一件专利P1在5年内表现为突破式技术创新,其CD指数为正。随着时间推移,1990年公开的专利P2在5年内取代了P1成为新的突破式技术创新专利,此时P1的引用量减少,但对其CD指数的正负影响不大[29]。因此,用CD指数在1995年对比P1和P2的创新性的意义不大,甚至P1的技术创新类型可能因太长的统计周期而发生了变化。Yayavaram等[30]认为,评价专利的创新性需要用该专利公开后5年(或10年)的CD指数。考虑这种情况,本文在后续度量发明人的创新类型时,选取一段时间内(如1年或5年)公开的所有专利,计算每一件专利在相同时间(如5年或10年)内的CD指数。

3 数据与实验

3.1 数据集与预处理

3.1.1 数据集选择

研究数据来源于美国专利和商标局(United States Patent and Trademark Office,USPTO),选自美国专利分类号435*(分子生物学与微生物学,Chemistry: Molecular Biology and Microbiology)下1979—2014年的授权专利数据,共66875条。本文使用该数据构建专利引用网络与发明人合作网络,使用的字段包括专利号、专利公开日期、发明人、参考专利号、参考专利公开日期。选取该专利数据的原因有:①分类号435*的数据完整性较好,对应学科的引用较为集中;②专利间引用较频繁,在短时间内能产生足量的引证关系,用于构建专利引用网络与计算CD指数;③分类号435*对应学科具有较高的影响力,作为科研前沿领域的发展较快,具有较高的研究价值。

3.1.2 数据预处理

(1)专利引用网络构建

科技发明人创新类型的确定首先要计算发明人在一段时间内公开专利的CD指数。根据专利间引用关系可以构建专利引用网络,进而可以计算出一件专利的CD指数。本文采取直接引用方式来构造专利引用网络,专利可以被视为网络中的节点,而专利之间的引用和被引用关系可以作为节点之间的连边。

本文选择的数据集中,一件专利的部分参考专利可能并不在435*分类号下,属于其他学科或更早期的专利,而这部分专利在一些发明人特征的计算中是必需的。因此,构建的专利引用网络的节点数要大于435*分类号及其子类下的所有专利数据。构建的专利引用网络需要使用1979—2014年的全量数据,网络包含专利共354422件,引用1156504次。

(2)发明人合作网络构建

合作网络是以创新主体为节点,创新主体通过专利合作建立联系,本文根据此关系和专利文献题录数据构建发明人的合作网络。

实验中选取存在于该数据集的发明人作为研究对象。在构建合作网络时,一件专利的所有发明人间形成两两合作关系,在其之间添加连边。许多发明人之间有过不止一次合作,该现象在全局发明人合作网络更显著。因此,发明人合作网络是一个无向有权网络。首先,选取全量专利数据集,构建1979—2014年的发明人合作网络,该网络包括98075个节点和231919条边。其中,有62362对作者(即合作网络中的62362条边)之间合作次数超过一次,占总边数的26.9%。全局发明人合作网络的平均度是4.73,一位发明人公开专利的平均数量为2.17。其次,构建以5年为时间段的合作网络,并计算网络的基本拓扑结构特征,结果如表1所示。考虑到部分发明人存在科研生涯终止的情况,在计算各合作网络的平均度和平均聚类系数指标时,发明人总数选择的是该时间段公开了专利的发明人,即发明人合作网络的节点数。合作网络的平均度随时间推移呈上升趋势。网络的平均聚类系数整体上也在增加,表明发明人之间的合作者之间互相合作的概率增加,但网络的密度随时间变化在降低,表明从整体上看网络仍然是稀疏的。

表1 发明人合作网络基本特征(以5年为时间段统计)

(3)发明人创新类型的计算

图2统计了MaxCD度量方式下两种创新类型发明人的数量情况。其中,CD指数的计算取5年为计算周期[30],图中D和C分别表示突破式创新发明人和持续式创新发明人,节点对应的横坐标,如1983,代表的是1979—1983年的统计数据。分类号435*(分子生物学与微生物学)领域突破式创新发明人数量随时间推移呈现先增加后减少的趋势,在2009—2013年时间段要少于持续式创新发明人的数量。进一步测量发现,在2003年之后出现了大量专利未被引用的发明人。

图2 两种创新类型发明人数量随时间变化情况

对于发明人的创新类型,本文计算了max{CDij|j∈Ni},记作CDmax,并统计了该值的分布情况,如图3所示。结果表明,两种创新发明人的CDmax分布类似,并且该结论与文献[19] 中“明星发明人”的突破式和持续式指标的分布情况吻合。

图3 发明人所有专利CD指数的最大值分布

3.2 科技发明人合作网络的度相关性和同配性

发明人合作网络是不断发展的,复杂的机制驱动着网络的演变。在某一时期观察到的网络在长期内可能表现出不同的度分布特征。一种简洁的判断度相关性的方法是计算度为k的节点的邻居节点的平均度,即余平均度(excess average degree)[31]。假设节点i的ki个邻居节点的度为kij,j=1,2,3,…,ki,计算节点i的ki个邻居节点的平均度,即

假设网络中度为k的节点为v1,v2,…,vik,则度为k的节点的余平均度为

图4 历年发明人合作网络(k)和k的关系

同配系数是刻画网络是同配还是异配的指标,计算方法为

其中,σ2为余度分布的方差;ejk表示在网络中随机选取的一条边的两个端点的度分别为j和k的概率,即联合概率分布;qj表示网络中度为k的节点数所占比例,即网络的度分布;qk表示网络中随机选取的一个节点随机选取的一个邻居节点的度为k的概率,即余度分布。显然,同配系数r∈[-1, 1] 。如果r>0,那么网络是同配的;如果r<0,那么网络是异配的。

为了进一步验证发明人合作网络的同配性质,本文计算了1979—2014年每年的同配系数及其变化情况,如图5所示,横坐标是年份,纵坐标是每年发明人合作网络的同配系数。结果显示,1979—2014年每年发明人合作网络的同配系数均大于0,表明发明人合作网络是同配的;并且同配系数的绝对值均大于0.5,反映了合作网络较强的同配程度。网络的同配性质也反映了具有相同属性的发明人倾向于相互连接。

图5 发明人合作网络同配系数

3.3 突破式创新发明人的合作倾向分析

3.3.1 合作倾向测度

本节探究突破式创新发明人在合作时是否存在倾向性。Wu等[22]的研究表明,合作团体的规模会影响突破式创新成果。Gong等[32]对一个社会群体中的每个人进行反应力测试,指出评分高的个体会收到更多的合作邀请。因此,本节重点研究发明人参与合作的团体规模以及合作对象创新类型。其中,前者是指发明人参与科研工作的研究团队规模,后者是指发明人在合作对象的选择上的特点。

发明人合作网络图谱如图6所示,显示了不同创新类型发明人的合作关系情况以及其随时间的变化。两种创新类型的发明人分别用不同的形状表示,连边的线型代表不同创新类型发明人之间的合作关系。在图6中,D和C分别表示突破式和持续式创新发明人,D_C表示突破式创新发明人与持续式创新发明人合作。随着时间推移,突破式创新发明人占比降低,这与图2和图3的结论吻合。图6还表明,突破式创新发明人倾向于与突破式创新发明人合作。

图6 发明人合作网络图谱

进一步测量科技发明人选择的合作对象类型。合作双方的创新类型是由他们建立合作关系这一时间点之前的专利被引情况确定的。该测量方法避免将两位发明人合作开发的专利纳入其自身创新类型计算的范畴,消除了“内生性”,也更符合现实中发明人选择合作对象的流程。假设发明人A和B在2010年5月20日公开了一件专利,在测量二者创新类型时,将不包含这一件专利,而是分别选取A和B在这一时间点之前公开的专利来确定他们的创新类型。

由表1可以看出,以5年为时间段构造发明人合作网络的平均度比以1年为时间段的合作网络更稳定,且考虑到发明人的合作倾向可能会随着时间演化而改变,因此,本节选取以5年为时间段来构造发明人合作网络,统计不同时间段的指标。

探究突破式创新发明人合作对象的类型时,考虑到一位发明人可能与其他突破式和持续式创新发明人均有合作关系,本文通过两种指标来测量发明人的合作对象选择倾向,这两种指标分别记作Metric-1和Metric-2。

第一,测量不同创新类型的发明人产生了哪几种合作关系,分别占比是多少,即测量发明人合作网络的连边的两端点的创新类型。假设突破式创新发明人A与B在合作网络中存在连边(不考虑重复合作),则认为A倾向于和B合作,B也倾向于和A合作,即计算了2次合作关系。

第二,考虑一位发明人所有合作对象的创新类型,统计不同选择的发明人数量占比。以突破式创新发明人为例,假设突破式创新发明人A在某一时间段只公开了一件专利,其合作者B和C也是突破式创新发明人,则认为发明人A在该时间段只与突破式创新发明人合作;如果合作者B和C分别为突破式和持续式发明人,则认为发明人A在该时间段与两种类型均合作过。

3.3.2 合作倾向分析

本节以5年为时间段计算Metric-1和Metric-2两种指标下的合作倾向,统计了该领域发明人在不同时间段的两种指标下的实际占比数值,结果如表2~表4所示。由3.1节可知,两种创新类型发明人数量存在不均衡的情况,本文在统计Metric-1指标时进行了数据平衡,表中是平衡之后的相对值,可以直接比较数值的大小。在表2~表4中,D和C分别代表突破式与持续式创新发明人;且存在合作关系数目随时间变化减少的情况,其原因是有大量“新秀发明人”参与研发合作,表中并未展示。我们发现,对比不同时间段的发明人合作网络,相同创新类型的发明人之间合作更加频繁。以2009—2013年为例,突破式创新发明人数量是持续式创新发明人数量的1.89倍,而突破式创新发明人之间合作频次是两种创新类型发明人之间合作频次的5.39倍。表3的结果表明,更多突破式创新发明人只选择了与同类型发明人合作,极少数突破式创新发明人只与持续式创新发明人合作。上述现象进一步说明,具有相同属性的发明人之间会建立合作关系。但随着时间推移,从绝对数据上看,这一现象逐渐减弱。因此,本文将通过构建零模型来检验突破式创新发明人的合作倾向。

表2 不同创新类型发明人之间合作情况(合作关系数占比,Metric-1)

表3 突破式创新发明人的不同合作选择(Metric-2)占比

表4 持续式创新发明人的不同合作选择(Metric-2)占比

3.4 基于零模型的突破式创新发明人合作倾向检验

3.4.1 科技发明人合作网络零模型构造

一个与实际网络具有相同节点数和相同的某些性质A的随机网络称为该实际网络的随机化网络(randomized network)。从统计学的角度看,“具有性质A的网络G也具有某一性质P”是一个零假设(null hypothesis),要验证这一假设,需要与原网络G具有相同规模和相同性质A的随机化网络作为参照系,以判别性质P是否为这类随机化网络的典型特征。这一类随机化网络在统计学上称为零模型(null model)[31]。

根据不同的“某种性质A”对零模型的约束,可以将零模型划分为不同的阶数。按照约束条件从少到多,主要包括:零阶零模型,只需要与原始网络具有相同的节点数和平均度;一阶零模型,与原始网络具有相同的节点数N和度分布p(k)的随机化网络;二阶零模型,与原始网络具有相同节点数N和二阶度相关性特征(联合度分布)p(k,k′)的随机化网络。

本文构造的零模型针对的是发明人合作网络和发明人引用网络,需要对网络进行的约束是发明人的合作次数,即保持零模型的度分布或度序列(一阶特征)不变。因此,本文构建的是一阶零模型,构造方法是使每个节点的度值保持不变,即度序列保持不变。一阶零模型的构造方法如图7所示。假设网络中有节点A与B相连、节点C与D相连,且节点A与D不相连、节点B与C不相连,具体情况如图7a所示;先将连边AB和CD切断,再使节点A与D相连、节点B与C相连,最终生成图7b。

图7 原始网络和使用随机断边重连方法构造的一阶零模型网络

3.4.2 实际网络与零模型

表5与表6选取了3.3.1节测度的发明人的合作关系与合作对象选择情况,对比了这些指标在实际网络和零模型中的区别。在表5与表6中,D和C分别代表突破式与持续式创新发明人。零模型统计的各项数据取自零模型的平均值。

表5 突破式创新发明人(D)合作情况(实际合作网络与零模型)

表6 突破式创新发明人(D)合作对象选择占比情况(实际合作网络与零模型)

如表5所示,相比于零模型,在实际合作网络中,突破式创新发明人与同类型发明人的合作更多。在零模型中,突破式创新发明人与二者合作的比例接近两种创新发明人数量的比例。由表6可以发现,发明人在合作对象的选择上也表现出与零模型明显的差异。

3.4.3 突破式创新发明人合作倾向检验

基于零模型研究网络特征时,要把实际网络特征与相应零模型的特征做恰当的比较。本文参考文献[33] ,选择了统计学中的Z检验方法。Z检验方法(平均值差异检验方法)是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否明显。具体来说,特征j的统计重要性可用Z值来刻画,即

其中,N(j)表示某种特征在一个实际网络中出现的次数,在相应的随机化网络(零模型)中出现次数的平均值为σr(j)为随机化网络中特征j出现次数Nr(j)的标准差。Z值的绝对值越大,表示实际网络和随机化网络的差异越显著。

为了探讨突破式创新发明人合作倾向,本文测量了突破式创新发明人的合作对象中突破式创新发明人占比,记作fd。假设突破式创新发明人A在某一时间段只公开了一件专利,其合作者B和C均是突破式创新发明人,则认为fd=1;若B和C分别为突破式和持续式发明人,则fd=0.5。类似地,将持续式创新发明人的合作对象中持续式创新发明人的占比记作fc。

在检验突破式创新发明人合作倾向时,将合作网络中fd与fc两个特征的均值作为N(j),并且将由零模型计算得到的Z值分别记作Zfd和Zfc。表7展示了不同时间段的Z值。可以发现,不论是突破式创新发明人还是持续式创新发明人,Z值均是随时间演化越来越大,表明实际网络在合作对象选择这一特征上相比于零模型是显著的,且差异性随时间变化越来越强。上述现象进一步说明,从绝对数据上来看,随着时间推移,突破式创新发明人与同类型发明人合作次数的占比降低,这可能是因为持续创新发明人逐渐增多,越来越多的发明人从事科研工作,也表明合作对象选择对专利的技术创新性有着非常重要的作用。

表7 发明人特征fd与fc的差异性统计量

4 结论与展望

总结全文的分析结果,可以得出以下结论。

(1)科技发明人合作网络具有度相关性与同配性。从发明人合作网络的度值和对应余平均度的关系来看,发明人合作网络具有度相关性,表明度大的节点之间倾向于相互连接。在合作网络中,度大的节点一般是专利公开数量较多的发明人,这说明高产发明人之间倾向于相互合作。同时,合作网络的同配系数为正,进一步证明了合作网络具有度相关性,也表明相互合作的发明人之间具有相同的属性。

(2)突破式创新发明人倾向于和突破式创新发明人合作。仅从发明人的合作关系来看(合作网络中的连边),突破式创新发明人之间相互合作的占比明显高于不同创新类型的发明人合作。从发明人合作对象的选择情况来看,与两种创新类型发明人均合作过的突破式创新发明人占比较少,更多发明人的合作对象只有同类型发明人。通过构建零模型计算得到Z值,结果表明,实际网络在合作对象选择这一特征上相比于零模型是显著的,并且随着时间推移差异性越来越强。

(3)持续式创新发明人数量逐渐增多,但突破式创新发明人之间合作趋势更加明显。虽然不同类型发明人在合作对象选择上具有倾向性,导致两个群体产出的科研成果具有创新类型上的差异,但不能否认持续式创新成果的价值与持续式创新发明人在复合型团队中的作用。随着时间推移,持续式创新发明人占比逐渐增多,但是基于零模型的检验结果表明突破式创新发明人在研究对象选择上越来越专一。

本文的创新和贡献体现为两点:其一,本文为发明人创新类型的划分提供了一种新的度量方法,且该方法不局限于研究高产、高影响力发明人;其二,本文通过数据描述与基于零模型的检验方法,分析和验证了突破式创新发明人在研发合作时倾向于选择突破式创新发明人。

此外,本文还存在一些不足:在探究发明人合作对象的选择问题时,需要度量发明人的创新类型,这是由他们在当前时间点之前的研究成果而确定的;在统计过程中出现了“零被引发明人”与“新秀发明人”,这两类发明人的特征较少,对突破式创新发明人的合作倾向可能有影响,后续将对这两类发明人的科研特征做进一步研究。

猜你喜欢

发明人专利节点
CM节点控制在船舶上的应用
专利
Analysis of the characteristics of electronic equipment usage distance for common users
基于AutoCAD的门窗节点图快速构建
发明人角色识别及二元创新能力差异分析
——社会资本视角的解释
发明与专利
浅析发明人(或设计人)变更的常见问题及建议
摇摆撞击洗涤装置
洗衣机
抓住人才培养的关键节点