APP下载

产业集群成员间技术相关性研究
——基于专利数据的分析

2019-10-18余军合

生产力研究 2019年8期
关键词:注塑机分类号集群

严 俊,余军合,徐 斌,吴 宇

(宁波大学 机械工程与力学学院,浙江 宁波 315211)

一、引言

产业集群能够带来竞争优势,如何在激烈竞争的国内和国际环境下保持竞争优势和可持续发展是目前很多产业集群面临的问题。随着《中国制造2025》国家战略的出台,创新是引领发展的第一动力,培育一批以技术优势为核心竞争力的产业集群成为制造强国的战略方针之一。因而,集群核心竞争力的重要性越来越突出,尤其基于技术优势的核心竞争力成为产业集群长远发展的重要条件。

受限于经济状况,大多数中小型集群成员因为硬件设备及研究能力不足,不能全面地投入整个产品的创新研发,而是专注于产品某个零部件进行优化研究。为了打造以技术优势为核心竞争力的产业集群,尤其是以中小型集群成员为主的产业集群则需在技术创新研发中做到分工明确、资源合理利用、产业协同。做到以上几点,就必须提高集群各主体对技术创新的认识与理解,了解各主体的技术优势,从技术角度对产业集群各主体进行划分,从而引导产业集群转型升级,提高可持续创新力。专利是创新成果的载体,通过专利技术的相似性建立集群内部各主体之间的关联性,从而对产业集群各主体进行技术划分具有可行性。

二、专利技术相关性分析方法

专利的相似关联性是基于专利内容的相似程度建立的,其主要的方法包括共引分析法、共类分析法和文本挖掘的方法。

专利共引分析法的核心思想表现为:专利在进行创新设计时不可避免地会参考前人的专利设计,同样未来的专利在进行创新设计时也会参考现在的专利,这样就形成专利引用网络,通过专利引用网络就能建立专利之间的关联关系。卞志昕(2011)[1]考虑了共链分析法与共引分析法的差异,将两者相结合分别对专利公司与学术机构进行专利耦合分析,表明专利共引分析能够反应行业的专利分布情况。刘云等(2013)[2]将专利共引分析法应用到电动汽车行业中,挖掘电动汽车核心专利之间的关联关系,并研究了电动汽车核心技术的演化过程。宋超和刘海滨(2016)[3]在专利共引可视化方面引入拉力算法,并在生物质能领域进行了实证分析,能够进行专利技术的预见研究。共引分析法对于某个技术领域的专利关联性分析较为合适,但是由于共引分析需要大量的专利文献,而产业集群的专利相对于整个行业的专利较少,很难将产业集群所有专利通过共引分析法建立关联关系,所以其对于产业集群的专利相似关联性建立并不完全适用。

专利共类分析法强调同属一类的专利具有相似关联性。常见的专利分类有基于国际分类号(IPC)和德温特分类。国际分类号(IPC)是从专利功能和应用角度,采用部-分部-大类-小类-大组-小组等级的形式描述技术类别;德温特分类则把专利按学科划分为20 个大类,每个大类用字母表示,跟随的两位数字表示专利所属学科领域。两者都是通过对专利进行编码从而实现对专利进行分类。基于分类号对专利进行分析,相关研究也层出不穷。张宪义(2013)[4]通过对德温特创新索引数据库1991—2010年所有专利进行共类专利耦合分析,能够揭示出相关联的技术、识别关键基础技术以及技术演化过程。温芳芳(2017)[5]基于德温特分类号耦合的分析方法,对29 家样本企业的技术相关性特征进行分析,揭示企业之间潜在的竞争与合作关系。周磊和杨威(2016)[6]提出一种基于专利共类耦合矩阵建立知识网络流的方法,挖掘了4G 技术知识网络。共类分析利用专利的分类号来区分专利的内容,在一定程度上很难区分相同分类号间专利内容之间差异。由于产业集群生产的产品相似,专利的IPC 分类号集中,如果仅从IPC 分类号对产业集群进行分析,很难识别产业集群各主体之间技术的差异性。

文本挖掘的方法为专利内容的分析提供了新的方法。通过文本挖掘技术能够挖掘专利的词语或者主题,利用词语和主题来描述专利的内容,对比词语和主题的差异就能建立专利之间的相似关联性。文本关键词提取方法的研究不断涌现,Luhn(1957)[7]提出基于词频统计的方法筛选出关键词。Salton 和Yang(1973)[8]提出通过词频和文档概率相结合的方法(TF-IDF 算法)来筛选关键字。Blei 等(2003)[9]提出了基于主题模型关键词抽取算法LDA,能够建立“文档-关键词-主题”之间的概率关系。MIHALCEA R 和TARAU P(2004)[10]提出基于图模型的TextRank 关键词抽取算法。在专利主题挖掘方面,杨超等(2017)[11]等利用LDA主题模型对专利中的SAO 三元组结构进行主题挖掘,提高了主题的辨识度。许海云等(2016)[12]总结了目前专利文本技术主题识别中的关键技术不足之处,提出了专利文本技术主题识别关键技术的发展趋势。姜春涛(2015)[13]提出利用图结构的表示法挖掘中文专利文本的语义信息,为专利智能分析提供语义支持。侯婷等(2015)[14]等利用文本挖掘技术抽取技术主题和规范化主题,为技术主题分析提供基础工作。从现有研究来看,对于专利信息的抽取与标注大多都是由关键词和主题来完成且方法较为成熟。利用词和主题来表达专利内容具有可行性。一方面,同一产业集群内集群成员的专利设计都是围绕着优化同类产品而展开的,集群成员间专利设计内容上具有相似性,其相似性可以由同一主题表达;另一方面,专利设计具有一定的创新性,集群成员间专利设计内容上的差异性可以由不同主题来表达。

共引分析法和共类分析法都是依据专利自身指标来构建专利间的关联关系,不需要对专利内容信息进行抽取。但是都需要对大量专利数据进行分析,来构建关联性,不适用于产业集群专利的分析。本文将采用文本挖掘的方法抽取专利内容信息,用不同主题来表达专利内容上的不同。基于集群成员拥有的专利在主题分布的不同,计算集群成员间专利耦合强度,从而识别专利相似的集群成员。

三、产业集群专利主题耦合分析方法研究

(一)专利主题耦合分析

在进行专利主题耦合分析之前,需要建立“主题-专利文本-集群成员”的映射关系。LDA 作为一种文档主题生成模型,其本质为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。生成模型就是通过主题和文档的对应概率关系来确定文本的主题,同是由于专利文档和主题并不是一一对应,一个专利可能有一个或多个主题。专利摘要是对专利内容的概括,其能够体现专利的主要内容,可以从专利摘要中抽取专利主题。集群成员与专利文本的关系是确定的,可以通过LDA 从专利摘要中抽取主题,建立集群成员和主题的映射关系,其关系图如图1 所示。

图1 产业集群成员A 与成员B 专利主题耦合关系示意图

专利主题耦合分析是通过比较专利主题在专利中的共现关系来实现的,体现了不同专利之间的相似性。两个专利间的主题耦合关系越明显则表明其相似程度越强。产业集群中两个成员的专利主题共现情况可以反映两个集群成员的技术相似性。专利耦合一般通过专利共引关系来测算,对于主题共现关系的专利主题耦合强度还没有。可以先将集群成员专利集基于主题进行向量化,借助于向量的距离来表示集群成员专利集技术耦合强度。

本文基于集群成员专利集在不同主题上的分布数量对集群成员专利进行向量化,其向量表达式为Cj=(b1j,b2j,…,bkj,…,bnj),其中bkj表示集群成员j 所有专利中涉及专利主题k 的专利个数,n为产业集群专利主题数目。若将图1 中成员A 和成员B 的专利进行量化,由于成员A 的专利在主题A、主题B、主题C……主题H 分布的数量分别为2、1、1、1、1、1、0、0,则成员A 专利向量CA=(2,1,1,1,1,1,0,0),成员B 专利向量CB=(0,0,0,1,1,1,1,1)。测算向量距离的方法有以下几种:

(1)欧式距离是测算向量距离的经典指标之一,其物理含义就是讲向量坐标投射成多维空间的点,计算两点之间的距离。若有两个n 维变量C1(b11,b21,…,bk1,…,bn1)与C2(b12,b22,…,bk2,…,bn2),则欧式距离的定义如公式1 所示:

若C1、C2表示集群成员专利向量,则其欧式距离的含义表示集群成员的专利集在主题分布数量的差异,当两个集群成员专利集在主题分布一致时距离为0,其耦合强度最大;当两个集群成员专利集在主题分布数量差异越大则其欧式距离越大,专利耦合强度越小。根据公式1 可以计算出成员A 与成员B 专利耦合强度为2.828,欧式距离能够很好地表示两个集群成员专利集在主题分布数量的不同,但是其受制于专利集中专利数量大小的影响,并不能表示集群成员在主题投入的偏向。

(2)为了消除专利集自身大小的影响,更能体现出集群成员对于专利主题的偏向差异可以借助正弦距离来表示集群成员专利技术差异性。正弦距离是用两个向量的夹角表示两个向量的距离,若有两个n 维变量C1(b11,b21,…,bk1,…,bn1)与C2(b12,b22,…,bk2,…,bn2),则正弦距离如公式2所示。

若C1、C2表示集群成员专利向量,则其正弦距离的含义表示集群成员的专利集在主题分布比例的差异,当两个集群成员专利集在主题分布比例一致时距离为0,耦合强度越大;当两个集群成员专利在主题分布比例差异越大,则其正弦距离越大,耦合强度越小。根据公式2 可以计算出成员A 与成员B 专利耦合强度为0.528,正弦距离能够更好地表示两个集群成员专利集在主题分布比例的不同,表示出集群成员在主题投入的偏向。

(3)为了体现出集群成员间的技术竞争关系,借助杰卡德距离表示集群成员专利技术差异性。杰卡德距离表示两个集合A 和B 不相同元素占两个集合总元素的百分比,杰卡德距离衡量的是集合A 与集合B 的区分度,其计算如公式3所示:

若C1、C2表示集群成员专利向量,则其杰卡德距离的含义表示集群成员的专利集在主题分布的区分度,当两个集群成员专利集在主题分布一致时距离为0,耦合强度越大;当两个集群成员专利集在主题分布差异越大,则其杰卡德距离越大,耦合强度越小。根据公式3 可以计算出成员A与成员B 专利耦合强度为0.667,杰卡德距离能够表示两个集群成员专利在主题分布的区分度,能展示出产业集群成员间技术竞争程度。

(二)集群成员间技术相似性可视化分析

为了直观地将专利耦合分析结果应用于产业集群技术情报分析,需要将专利耦合分析、多维尺度分析和数据处理等方法相结合,构建出可视化的集群成员专利耦合关系图谱。产业集群成员间技术相似性可视化与应用分析框架如图2 所示。

图2 技术相关性可视化与应用分析流程框架

产业集群成员间技术相关性可视化分析与应用流程包括五个阶段:

1.数据准备。建立合适的能反映产业集群专利概况的数据库,按照一定检索策略检索出产业集群技术领域原始专利数据;围绕着目标集,将数据进行清洗、合并及转换处理,构建该产业集群专利权人数据备选集;按照专利权人的专利数量从备选集中选定该产业集群主要专利权人作为分析对象。

2.主题挖掘。将专利摘要文本进行清洗,包括分词、去停用词、词性标注等。将清洗过后的专利摘要文本利用IF-IDF(term frequency-inverse document frequency)算法筛选出专利关键词。将关键词集利用LDA(Latent Dirichlet Allocation)文档主题模型生成专利主题,并经过多次调试最终确定主题个数形成产业集群专利主题。

3.主题耦合分析。根据专利“专利文本-关键词-主题”映射关系将专利文本主题进行标注。根据产业集群成员(专利权人)的专利所涉及主题的情况建立集群成员专利向量,根据向量距离定义计算所有集群成员间的两两耦合强度指数,建立产业集群技术相似矩阵。

4.可视化分析。集群成员聚类分析是根据集群成员间的技术相似程度将技术相近的企业划分为同一类,多维尺度(MDS:multi-di-mensional scaling)分析方法能将高维度空间数据映射到二维空间并保持数据之间的全局结构[15],在符合相关拟和指标前提下,将两者结合可以把集群成员专利向量投射到二维平面,标出相同聚类集群成员团体,从而构建产业集群成员专利耦合关系图谱。

5.应用分析。产业集群成员专利耦合图谱直观地反映了所分析的产业集群技术领域主要成员之间的技术相似性,从而可以作为产业集群技术分布格局、潜在竞争对手与备选合作伙伴的重要依据,具体应用思路将结合注塑机产业集群的实例分析说明。

四、注塑机产业集群成员间技术相关性分析

(一)数据源及预处理

1.数据源。本文基于中国专利检索系统(http://www.pss-system.gov.cn)及润桐专利数据库(https://www.rainpat.com)检索所需专利数据。

2.检索策略。采用注塑机行业主要结构名称等18 个不同形式的关键词用以检索专利数据,共计检索出专利信息22 513 条。

3.数据清洗。将检索到的注塑机行业专利按照地址筛选出浙江省和广东省产业集群注塑机专利,分别为4 783 条和4 894 条。由于许多企业以子公司、分公司名称申请专利,所以需要将其进行合并。可以根据地址、申请人名称进行相似度对比以及结合该产业集群成员信息为参考进行合并。

4.分析对象确定。由于外观专利其技术特征都是利用设计图来展示,并没有在摘要中描述,所以本文选取发明专利和实用新型专利作为分析数据。本文的目的是通过集群成员间的技术偏向不同识别潜在的竞争与合作对象,分析的应该是产业集群主要成员的技术相似性。所以选取浙江省和广东省注塑机集群专利量前50 名的成员作为分析对象,专利量分别占总体的70.12%和67.12%,可以确定所选取的分析对象为产业集群主要技术研发成员。

5.专利主题挖掘。将专利摘要文本利用NLPIRICTCLAS 汉语分词系统进行分、去停用词、词性标注处理。利用TF-IDF 算法选取专利关键词,利用LDA 主题模型对关键词进行聚类,经过多次调试确定聚类个数为6 最为合适,最后形成专利主题-主题词表,如表1 所示。

从表1 可以看出,第一类主要描述的是油路系统、第二类为电机控制系统、第三类为调模系统、第四类为注射系统、第五类为加料系统、第六类为注塑机外部结构。

表1 注塑机产业集群专利主题词分布(局部)

(二)数据分析与可视化

1.耦合强度矩阵构建。通过主题词分布表,根据专利摘要中关键词与主题词对应关系将专利内容利用主题进行标注。根据集群成员专利的主题分布数量建立成员专利向量。本文主要目的是研究集群成员技术的偏向性从而对产业集群进行分析。所以将集群成员进行两两配对,利用正弦距离计算集群成员间的专利耦合强度,最后建立耦合强度矩阵,如表2、表3 所示。其中浙江省注塑机成员用Z1、Z2、Z3,…,Z50表示,广东省注塑机成员用G1、G2、G3,…,G50表示。

表2 浙江省注塑机产业集群成员专利耦合强度矩阵(局部)

表3 广东省注塑机产业集群成员专利耦合强度矩阵(局部)

2.集群成员聚类。基于建立好的专利耦合强度矩阵可以构建层次聚类图,如图3、图4 所示。

分析图3 可知,若按照横轴20 刻度线对浙江注塑机产业集群成员进行划分可以将其分为三类,成员个数分别为35、9 和6。若按照横轴15 刻度线对其进行划分,则可将其分为五类,成员个数分别为20、15、9、4 和2。

在图4 中若按照横轴20 刻度线对广东注塑机产业集群成员进行划分可以将其分为两类,成员个数分别为41、9。若按照横轴15 刻度线对其进行划分,则可将其分为三类,成员个数分别为41、5 和4。

图3 浙江注塑机集群成员 层次聚类

图4 广东注塑机集群成员 层次聚类

3.集群成员专利耦合关系图谱构建。将表2、表3 中的产业集群专利耦合强度矩阵导入SPSS中,将其转化为皮尔森相关系数。以相关系数数据为基础展开多维尺度分析(本次分析Stress 值分别为0.072 13 和0.082 13,表明分析结果较好、符合要求),输出了浙江注塑机产业集群和广东注塑机产业集群主要成员的专利耦合关系图谱,如图5、图6 所示。按照上述层次聚类图横轴刻度15 所划分的类别对图谱进行标注,将浙江和广东集群分别划分为5 个和3 个组群。产业集群专利耦合关系图谱可视化地展现了产业集群主要成员间的专利耦合关系。图谱中每个点代表一个集群成员,两者之间的距离代表两个集群成员间的耦合关系强度。

(三)应用分析

在图3 和图5 中展示出浙江注塑机产业集群主要成员的耦合关系可以分为5 个类别,从类别内部看,位置越靠近的集群成员之间耦合强度越高,表明它们之间的技术相似性越强。

图5 浙江注塑机产业集群主要成员专利耦合关系图谱

图6 广东注塑机产业集群主要成员专利耦合关系图谱

产业集群专利耦合关系图谱可以明确该产业集群的技术分布情况。浙江注塑机产业集群类别Ⅰ包括20 个集群成员,其范围较大、点比较分散,在该区域的集群成员技术优势涵盖较广,包括油路系统、调模系统和注射系统。类别Ⅱ包括15 个集群成员,其范围也比较大,且位置处于图谱中心,其技术较为均衡。类别Ⅲ包括9 个集群成员,其范围相对于类别Ⅰ和类别Ⅱ较小,在该区域的集群成员技术优势在于电机控制系统。类别Ⅳ包括4 个集群成员,其范围较小,在该区域的集群成员优势在于加料系统。类别V 仅含有2个集群成员,其技术优势在于注塑机外部结构。

产业集群专利耦合关系图谱可以识别集群成员间的技术竞争与合作对象。在产业集群专利耦合图谱中,处于同一类别的集群成员具有一定程度的技术相似性,都可能是潜在的竞争对手。在图谱中的位置越近,说明两个集群成员技术相似度越高,存在的潜在竞争越直接。对于技术合作对象的选择,包括两个方面。一方面是为了聚集研发能力解决共同面临的技术难题,可以选择同类别且距离较近的集群成员进行合作;另一方面是为了解决产业技术链不同环节之间的有效融合问题,例如类别Ⅲ和类别Ⅳ中的企业,分别为电机控制和加料系统。电机控制主要研究的是电机控制的精确度等问题,而加料系统则研究的是注塑机加料的零部件和机械结构,两者都是服务于“加料”这一生产过程。所以这两个类别的企业可以选择跨类别合作,有利于技术的集成。

图4 和图6 展示出广东注塑机产业集群可以分为3 类。类别Ⅰ包括41 个集群成员,其范围较大、点比较分散,在该区域的集群成员技术优势涵盖较广,包括油路系统、调模系统和注射系统。类别Ⅱ包括5 个集群成员,其范围较小,位于该区域的集群成员技术优势在于电机控制系统,类别Ⅲ包括4 个集群成员,但是其范围比类别Ⅱ略大,在该区域的集群成员技术优势在于加料和注塑机外部结构。

对比图5 和图6 可以看出,浙江省和广东省注塑机产业集群具有一些共性和特性。其共性在于,位于范围较大的类别的集群成员技术优势都是注射系统、油路系统和调模系统。注塑机的主要作用就是注塑成型,而注射系统、油路系统和调模系统都直接关系到注塑效果的好坏,所以该领域的专利都集中在这三部分。浙江省注塑机产业集群成员类别比广东省注塑机成员类别要多,其成员技术分布也比广东省较为分散。这是因为浙江省注塑机产业集群更为成熟,其中浙江省有海天、海太、双马等全国闻名的注塑机企业。

(四)与已有研究方法的对比分析

1.与共引耦合分析的对比。共引耦合分析是通过专利共引来计算专利权人之间的技术相似性的。但是对于产业集群的专利耦合分析并不合适。其一是因为专利引用并不好获取,有些专利的引文需要单独进行抽取;其二是因为专利共引需要建立专利的引用网络,产业集群的专利有限,集群成员间很难利用专利共引建立耦合关系。而对于整个行业的分析,行业内的主要成员专利数量较大,可以通过专利共引建立耦合关系。

2.与共类耦合分析的对比。共类耦合分析是通过专利权人共有分类号的多少来计算专利权人之间的技术相似性的。其对于产业集群耦合分析也不适合。由于整个行业的技术差异性较大,其专利分类号差异性也较大,所以适合利用分类号对整个行业进行耦合分析。但是产业集群是对于某个地区产业的分析,其技术相似性较高,所以其IPC 分类号较集中,如果基于IPC 分类号对产业集群进行专利耦合分析会造成难以识别集群成员技术差异性。本文对于这一点进行了对比分析,以浙江省注塑机产业集群为例,利用IPC 分类号作出产业集群耦合关系图谱,如图7 所示。

图7 基于IPC 分类号的产业集群专利耦合关系图谱

由图7 可以看出基于IPC 分类号并不适合产业集群,图中大部分的点都集中到一个很小的区域,并不能从图中看出各集群成员间技术的差异性。其原因是浙江省注塑机产业集群IPC 分类号都集中在B29C45,其数量占专利总数量的78.21%。B29C45 则表示专利内容为注塑成型,对于注塑产业集群分析而言,粒度过大,不能展示出技术发展的细节特征。

五、结论

集群成员间的技术相关性分析是对产业集群技术分布、集群成员竞争对手识别与合作对象选择的重要依据。本文对目前专利分析方法进行了分析,说明了基于专利耦合分析能够更为准确地体现集群成员间的技术相似程度。对比了共类耦合分析、共引耦合分析和主题耦合分析的适用对象,可以看出共类耦合分析、共引耦合分析更加适用于整个行业的分析,而对于产业集群的分析则需要利用主题耦合分析。本文将挖掘与专利耦合分析相结合,利用文本挖掘技术挖掘产业集群专利主题,基于专利主题对专利进行向量化,利用向量距离计算公式计算集群成员间的专利耦合强度。利用多维尺度分析,展示了集群成员的技术相关性,并结合图谱分析了浙江省注塑机产业集群技术分布,说明了集群成员竞争对手识别和合作对象的选择方法。最后对比了浙江省和广东省注塑机产业集群技术分布的不同,验证了该方法的普遍性。

本研究仅选取了注塑机产业集群主要成员作为分析对象,在反映产业集群技术情况上具有局限性。此外,本文计算专利耦合强度利用的是向量之间正弦值进行的,没有对比正弦距离、欧氏距离和杰克德距离差异性,若是为了精确地对比集群成员的技术相似性,则需要多次对比验证专利耦合强度计算公式的差异性。

猜你喜欢

注塑机分类号集群
注塑机料筒温度控制系统的设计与实现
海上小型无人机集群的反制装备需求与应对之策研究
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
一种无人机集群发射回收装置的控制系统设计
Python与Spark集群在收费数据分析中的应用
A Study of Chinese College Athletes’ English Learning
勤快又呆萌的集群机器人
超声微注塑机超声单元的设计与分析
基于单神经元自适应PID控制的注塑机合模机构