采用机器学习算法的技术机会挖掘模型及应用
2020-08-03包清临柴华奇赵嵩正王吉林
包清临, 柴华奇, 赵嵩正, 王吉林
(西北工业大学 管理学院, 西安 710129)
技术机会是开展技术创新活动的前提和条件[1-2].挖掘并抢占技术机会,为创新活动的展开赢得先机[3-5].近年来,以专利驱动挖掘技术机会受到学术界的广泛关注.专利记载了核心技术信息,包含了前沿技术创意,充分利用专利,可以大大缩短技术机会挖掘时间,节省40%的研发费用[6-7].
根据技术机会相关研究中专利样本量的大小,可以把现有专利辅助挖掘技术机会的研究分为两类.一类研究是以少量的专利样本为出发点,结合技术的应用前景挖掘技术机会.江屏等[8]在确立研发目标后,以封隔器领域的673件专利为样本,根据TRIZ理论为技术机会构建待规避专利技术的原理解模型,使其规避可能存在的专利风险.Wang等[9]认为科学论文和专利记录了科学发现和技术发展中核心的知识,通过二者可以发现并挖掘潜在的技术机会,因此采用文本挖掘和聚类算法对微藻类生物燃料领域的技术机会进行了探索.Jia等[10]选择目标类专利,采用类比设计方法,对技术机会进行发掘,寻找创新设计理念.此类研究能较好地实现特定目标,但由于专利样本量较小,计算结果与设计目标容易背离,技术机会挖掘结果应用性低.另一类研究以海量专利样本为出发点,通过数据挖掘技术,结合统计方法对专利文本的结构化信息进行处理.Cheng[11]以大量专利为样本,采用文本挖掘技术,构建专利技术功效矩阵(PTFM),通过对PTFM中技术呈现出的密集区及真空区的分析,得到技术机会挖掘结果.Jin等[12]从专利信息出发,通过市场和产品两个维度,搭建PTFM并绘制专利技术功效图,以识别太阳能照明领域的创新技术.Joung等[13]通过专利文本挖掘,提取了技术关键词和功效关键词,从而构建PTFM,对生物传感器中电子转移领域的新兴技术进行了识别.相较于前一类研究,非目标类研究对专利的人工分类干涉较少,通过更广的专利覆盖,确定出更加前沿的技术方向,但是该类研究较少涉及了创新目标,得出的技术机会的应用性较低.
由此可以看出,少量专利样本或缺乏创新目标下的研究,缺乏对技术前景的评估,由此形成的技术机会必然对其应用性产生影响,从而降低技术机会挖掘结果的可行性.因此,本文以提升结果的应用性为目标,在技术机会挖掘过程中加入对技术应用前景的评估,采用机器学习算法,以海量专利数据为样本,结合文本挖掘、MapReduce计算框架和熵权-TOPSIS法,使用Python编程语言,构建三维的专利预测模型.并在钛领域内应用该模型,为其挖掘潜在的技术机会.
1 相关研究综述
1.1 文本挖掘与机器学习算法
文本挖掘亦称文本数据挖掘,指使用数据挖掘、机器学习、自然语言处理等技术,结合分类、聚类、偏差检测、关系分析等方法,解决文本集合或语料库信息过载的问题,以发现其中隐含的信息或模式的过程,一般来说,文本挖掘包括信息检索、信息抽取、信息挖掘以及信息解释4个步骤,其中信息挖掘最为关键,主要包括文本预处理、文本聚类或文本关联、特征提取以及结果可视化[14].
最开始研究抽取关键词的模型是空间向量模型(VSM),但由于该模型方式不能对语意实现完全描述[15],便逐步涌现出了通过给定潜在变量,经过建模主题实现关键词共现的主题模型.在主题模型中,概率潜在语义分析 (PLSA)算法较为主流.PLSA算法是在1999年由Hofmam提出的,能够解决潜在语义分析(LSA)算法在文本挖掘过程中对大样本处理不足的问题,同时,相较于奇异值矩阵分解(SVD)降维方法,PLSA算法能更清晰地推断文档与词语间的关系模型.现有研究显示,相较于LSA算法,PLSA算法能显著提升关键词抽取的效率和精确度,减少人工抽取的误差,适于在大样本环境中运行.它通过建立文档、主题与词语三者之间的映射关系,基于双模态和共现准确抽取关键词[16-17].
PLSA算法通过计算 “文档-主题”和“词语-主题”的概率矩阵,对共现概率进行排序,表现基于共同的观察数据的隐藏变量关系,经过相似度计算和聚类分析,达到筛选关键词的目的.因此可以说PLSA算法是构建概率主题模型的最佳选择.PLSA算法主要基于以下假设[18]:①在同一潜在主题集合T={t1,t2,…,ts}下,文档集合D={d1,d2,…,dn}和词语集合W={w1,w2,…,wm}之间是独立的;②词语wi(i=1,2,…,m)和潜在主题tk(k=1,2,…,s)之间也是独立的.
由此,选定任一文档dj(j=1,2,…,n)的概率为P(dj),在PLSA算法中,该文档所属任一潜在主题tk的概率服从多项分布,表示为P(tk|dj);进一步在该潜在主题下,任一文档dj生成词语wi的概率也服从多项分布,表示为
(1)
式中:tk为潜在主题集合T中的任一潜在主题;dj为文档集合D中任一文档;wi为词语集合W中任一词语;P(dj)为选中文档dj的概率;P(wi|tk)为在确定潜在主题tk下选中词语wi的条件概率;P(tk|dj)为在确定文档dj后选中潜在主题tk的条件概率;P(tk)为选中同一潜在主题tk的概率;P(dj|tk)为在确定潜在主题tk下选中词语wi的条件概率.由于P(tk|dj)和P(wi|tk)符合多项分布,所以可以通过最大期望(EM)算法优化目标函数,通过循环迭代得到式(1)的最大似然解,有效解决数据过拟合问题.EM算法下的计算分为E步和M步.E步为期望步骤;M步为最大化步骤.根据E步和M步的计算规则,所得如下.
E步:计算给定观测对(dj,wi)时选中潜在主题tk的概率.
P(tk|dj,wi)=
(2)
M步:在确定P(tk|dj,wi)的条件下计算P(wi|tk)和P(tk|dj)的概率.
(3)
(4)
式中:P(ts)为潜在主题取得最大值ts时的概率;P(dj|ts)为在概率主题取得最大值ts时选中文档dj的条件概率;P(wi|ts)为在概率主题取得最大值ts时选中词语wi的条件概率;P(tk)为任选某一潜在主题tk的概率;P(dj|tk)为任选某一潜在主题tk时选中文档dj的条件概率;P(wi|tk)为任选某一潜在主题tk时选中词语wi的条件概率;m(dj,wi)为词语wi与文档dj的共现概率;P(tk|dj,wi)为在给定观测对(dj,wi)时选中任一潜在主题tk的条件概率;P(ts|dj,wi)为在给定观测对(dj,wi)时选中潜在主题最大取值ts时的条件概率;m(dn,wm)为文档取得最大值dn与词语取得最大值wm共现概率;P(tk|dn,wm)为在文档取得最大值dn和词语取得最大值wm后选中任一潜在主题tk的条件概率;m(dn,wi)为文档取得最大值dn与任一词语wi的共现概率;P(tk|dn,wi)为文档取得最大值dn并任选词语wi后选中任一潜在主题tk的条件概率.用随机数初始化之后,交替执行E步和M步进行迭代计算.PLSA算法以专利文本挖掘来实现对技术机会的挖掘,首先基于自然语言处理(NLP)对专利摘要文本进行预处理,包括对专利文本的词性标注;然后根据词性的不同,抽取专利摘要中的技术关键词和功效关键词;最后通过“专利摘要文本-词语”概率矩阵对技术关键词和功效关键词的词频进行统计.
1.2 Hadoop平台下的MapReduce计算框架
PLSA算法的实现,需要把“文档-主题”和“词语-主题”二维矩阵映射到分布式处理框架中.Hadoop是较为常见的大数据分布式处理平台,它包括分布式文件系统(HDFS)和MapReduce计算框架.MapReduce计算框架通过主节点的Job Tracker来调度和分发所有任务,无需人工干预,能较好地实现计算目的.
MapReduce计算框架主要包含Map阶段和Reduce阶段.Map阶段主要负责对数据的分析处理,最终转化为〈key,value〉数据对;Reduce阶段主要获取〈key*,value*〉数据对,通过对其进行统计处理,得到相应结果.
1.3 专利技术功效矩阵
在传统技术机会挖掘的模型中,PTFM较为普遍.PTFM以技术维为x轴,功效维为y轴,形成二维平面坐标[19].技术维与功效维的交点为专利单元项,它的大小与对应具有相应技术关键词和功效关键词的专利数量一致.在PTFM中,单元项越大,表示专利组合数量越多,该区域专利布局越密集;单元项越小,表示专利组合数量越少,该区域的专利布局越空白[20-21].不少学者以PTFM为依据,对技术机会进行挖掘与决策[22-24].
然而,仅运用PTFM作为分析工具,是不能实现对技术机会的完全预测.这是因为技术关键词和功效关键词仅是对技术特征及功能特征的描述,并不能对技术的运用前景和价值进行预测.因此,需要对PTFM进行改进,使其更加适应创新主体对前沿技术识别的需要.
1.4 专利价值与技术的应用前景
最早提出专利价值的是Pakes等[25],他们指出专利价值是用于衡量专利技术存续期的重要指标.Reitzig[26]认为专利价值与受专利保护的技术产品的市场指数呈正比.Bakker[27]指出专利价值与创新主体的技术计划有关,是技术战略的反映.Bessen等[28]提到专利价值是专利带给专利权人的市场收益.Hiller等[29]认为专利价值是企业专利投资、转让、许可使用、质押等资产运营行为的重要价值参考.由此可知,本文认为专利价值体现为专利带给专利权人的收益,该收益与技术机会的应用前景直接相关.因此可以采用专利价值指标,对技术的应用前景进行评估.
综合以上分析,在算法选择上,本文认为PLSA算法能更加突出地解决大样本下专利文本的词性标注和关键词抽取问题,相较于其他方法更加高效,同时通过文档-词语间的概率转换关系,能最大程度确保关键词抽取的精确度;在框架选择上,本文选择MapReduce计算框架完成关键词抽取,因此能不受人工干预完成实验内容;在模型选择上,本文将改进PTFM,构建以技术应用前景为指引的技术机会挖掘模型.
2 专利预测模型的提出及构建
2.1 专利预测模型的内涵
在PTFM的基础上,创新性的添加第三维——价值维.即价值维与技术维和功效维一起共同构成三维的专利预测模型.专利预测模型是基于专利的、以价值为导向的、提供技术机会前景预测的技术应用模型.专利预测模型的构建流程如图1所示.
图1 专利预测模型构建流程Fig.1 Construction process of patent prediction model
实验环境由3台计算机搭建,在Java 8.1环境中使用Python语言,采用PLSA算法,基于MapReduce计算框架对专利文本进行挖掘.
2.2 技术维和功效维的构建
专利预测模型的x轴是技术维,其坐标上为技术关键词,技术关键词是领域内高频技术方案和技术特征的展示,代表确定领域密集技术方向,为未来技术发展提供预见依据.专利预测模型的y轴是功效维,其坐标上功效关键词,功效关键词是领域内专利技术解决方案的展示,代表确定领域的技术功能,为未来技术应用功能的创新提供预见依据.技术维和功效维的构建步骤如下:
步骤1专利源数据获取.德温特专利索引数据库(DII)中的专利已是二次加工的数据,具有格式规范、噪音小的特点[30].因此选择DII中的专利摘要文本为源数据.
步骤2基于自然语言处理工具(NLTK)的文本预处理.专利摘要文本为自然语言,在计算机直接处理前,需通过预处理,对文档进行分词,除去停用词,标注词性,并确定线索词.① 词性标注.技术关键词和功效关键词一般为独立名词或名词与名词的组合,因此可以通过词性标注来提高关键词抽取的有效性.本文选择对专利摘要文本中“USE”和“ADVANTAGE”两部分的文本进行词性标注,技术关键词为名词, 功效关键词为形容词.② 确定功效关键词的线索词.本文使用同义词典中的特定动词对功效关键词定位, 这些特定动词就是确定功效关键词的线索词,使用线索词,可以显著提高专利功效关键词挖掘的速度和正确率.功效关键词的线索词如表1所示.
表1 确定功效关键词的线索词Tab.1 Clue words for determination of function keywords
步骤3在MapReduce计算框架之中,基于 PLSA 算法,抽取并计算技术关键词的词频,同时将结果输出;抽取并统计功效关键词的词频,同时将结果输出.
2.3 价值维的构建
本文采用专利价值来表示对技术应用前景的评估.在评估专利价值方法选择上,熵权-TOPSIS法具有样本容量大、不受参考序列选择的干扰,信息失真小、运算灵活及应用领域广等优点[31],因此选择该方法对专利价值进行评估.
2.3.1基于DMC的应用主题域确定 德温特手工代码(DMC)是DII数据库中的专业人员按照严格标引准则分配给每例专利的分类代码,本文使用DMC作为应用主题域.由于专利被引次数和引用关系的相关研究是目前预测技术前景趋势的重要指标[32-34],本文选择确定领域内前1000例高被引专利,统计其DMC,并筛选出频率最高的25个DMC,把DMC转化为所属应用主题域.
2.3.2专利价值评价指标体系构建 基于前人研究,本文从专利技术价值、专利市场价值和专利权利价值三个方面来构建专利价值评价指标体系[35-36].该指标体系共有3个一级指标、9个二级指标,具体指标项、指标含义及作用方向如表2所示.
表2 专利价值评价指标体系Tab.2 Evaluation index system of patent value
2.3.3指标打分及数据采集 聘请熟悉某领域的学者、管理人员和专利知识产权法律工作者进行打分,采用10分制对每个二级指标进行打分,其中10分为最高,1分为最低.
2.3.4熵权法下权重的计算 熵权法是一种有效确定各评价指标权重的方法.设有m个应用主题域,n个评价指标,则对应的评价指标决策矩阵可表示为
(5)
(6)
对Dij进行归一化处理,即
(7)
计算第j个指标的熵值可表示为
(8)
因此第j个指标的权重系数可表示为
(9)
2.3.5基于TOPSIS法的专利价值评估 TOPSIS法是由Hwang等[37]于1981年首次提出的,该方法的核心是逼近理想解的排序,基本思路是衡量被评价指标现实状态与理想状态的欧氏距离,从而对其实现评估.TOPSIS法已被广泛应用于对有限方案进行多目标评价决策领域[38-40].
以式(9)为基础构建标准化权重矩阵:
(10)
(11)
(12)
计算每个应用主题域的各指标值与正理想解间的欧式距离为
(13)
计算每个应用主题域的各指标值与负理想解间的欧式距离为
(14)
则各应用主题域与正负理想解的相对接近程度为
(15)
2.3.6专利价值等级的划分标准 按相对接近度的大小将专利价值进行10分制转换,把最高的相对接近度定为10,对专利价值得分tj依次折算并取整:
(16)
在确定应用主题域得分后,将该得分按照专利价值划分标准进行划分,可以得到专利价值所属区域.专利价值的划分标准、等级评定及所属区域如表3所示.
表3 专利价值等级划分Tab.3 Delimitation of patent value grades
2.4 单元项的填充
专利预测模型中的单元项指处于相应技术关键词、功效关键词和DMC交叉点上的专利组合.单元项填充,就是对具有相应技术关键词、功效关键词和DMC坐标点上的专利组合数量进行的聚类统计.PTFM中单元项填充一般由技术关键词和功效关键词的共现矩阵确定,因此本文在沿用共现矩阵进行专利聚类的基础上,通过先遴选共现矩阵再以DMC筛选的方式,填充专利预测模型中的单元项.基于MapReduce计算框架的单元项填充流程如图2所示.
图2 基于MapReduce计算框架的单元项填充流程Fig.2 Element item filling process based on MapReduce computing framework
2.5 专利预测模型的可视化
综合以上分析,得到专利预测模型的技术维、功效维和价值维,分别按照x轴、y轴和z轴的顺序置于三维坐标系中,同时结合专利预测模型的单元项,通过Origin 2019b软件,可视化为三维的专利预测模型.
2.6 基于专利预测模型的技术机会挖掘步骤和标准
步骤1绘制专利预测地图.专利组合是具有同一技术关键词和同一功效关键词的专利所组成的集合,某区域内专利组合越多,说明专利组合越密集.以专利组合的密集程度为专利预测地图的x轴,以专利价值程度为专利预测地图的y轴,绘制专利预测地图.
步骤2挖掘优先级的技术机会.价值原则下的优先级技术机会挖掘标准为:在同一专利价值等级区域内比较各专利价值得分下的专利组合总数,专利组合总数最少的专利组合所代表的技术方向即为优先级技术机会.在一级、二级、三级专利价值区域中,分别选择专利组合总数最少的专利组合所代表的方向为优先级的技术机会.
步骤3挖掘次级的技术机会.在价值原则下的次级挖掘标准如下:比较不同的专利价值等级区域中专利组合的总数,专利价值比较高的专利组合即为次级的技术机会.也就是说,对一级和二级专利价值区域、二级和三级专利价值区域内的专利组合分别进行两两比较,选择专利组合总数相近但是专利价值更高的专利组合所代表的方向为次级技术机会.
步骤4对已挖掘出的技术机会排序并描述.遵循价值原则的技术机会研发顺序,即根据专利价值的高低,首先对优先级的技术机会进行研发创新,再对次级的技术机会进行研发创新,最后对所有的技术机会进行描述.
3 专利预测模型的应用:以钛领域为例
3.1 钛领域的概况
钛及钛合金因其优良的超导性、形状记忆性和生物相容性而被广泛地应用于航空、航天、航海、兵器、石油、化工、冶金、电力、医疗、制药、建筑、海洋工程、体育休闲等领域.它既是航空航天、舰船兵器、海洋工程等军工高技术领域不可或缺的关键性结构材料,也是现代医疗、制药、建筑、体育休闲等民用领域至关重要的拓展性新兴材料.目前,钛的应用量和钛工业的发展水平已经成为衡量国家实力的重要标志之一.
3.2 钛领域专利预测模型的技术维和功效维构建
3.2.1专利源数据获取 专利有效期为20年,为更加全面展示钛领域的专利技术创新点和发展方向,本文在DII数据库按以下检索策略进行检索,如表4所示.
表4 构建技术维和功效维的专利检索策略
3.2.2使用NLTK的源数据预处理 使用NLTK对专利摘要文本进行源数据预处理,并进行清洗.为使技术关键词和功效关键词抽取的更加准确,本文使用NLTK对钛领域专利摘要文本进行分隔以及词性标注.
3.2.3基于MapReduce的技术关键词和功效关键词抽取及词频统计 基于MapReduce计算框架对钛领域专利预测模型的技术关键词及词频进行抽取和计算.把技术关键词抽取结果以 .xlsx 格式输出,得到钛领域专利技术关键词.为集中体现钛领域专利布局,也为使专利预测模型更直观可见,本文统计出现频率前25高的技术关键词,如表5所示.
表5 技术关键词的抽取及词频统计Tab.5 Extraction and word frequency statistics of technology keywords
同样基于MapReduce计算框架对钛领域专利的功效关键词及词频进行抽取和统计.把抽取结果按 .xlsx 格式输出,得到基于MapReduce计算框架的钛领域功效关键词的词频计算结果,本文统计前25个功效关键词,如表6所示.
表6 功效关键词的抽取及词频统计
3.3 钛领域专利预测模型的价值维
3.3.1专利源数据获取 为最大范围地评价专利价值,本文进行源数据获取时选定检索期限为20年,使用的专利检索策略与表4相同,在数据下载时,按“被引频次”降序排列,下载 1 000 项最高被引专利.
3.3.2基于DMC的应用主题域确定 提取检索结果,统计前25个高频DMC,并将DMC转化为应用主题域[41],如表7所示.
表7 前25个高频DMC对应的应用主题域Tab.7 Subject areas from top 25 high frequency DMC
3.3.3指标打分及数据采集 清华大学机械工程学院、西安交通大学材料科学与工程学院、西北工业大学管理学院、西北工业大学材料学院、西安理工大学材料科学与工程学院的专家学者,宝鸡工业技术创新有限公司、宝钛集团、西北有色金属研究院中层以上技术经理、产品经理、市场经理以及涉钛知识产权律师为二级指标打分.针对钛领域应用主题域专利价值情况,采用线下与线上相结合的发放问卷的方式,一共发放600份调查问卷,回收491份,有效问卷473份,问卷回收有效率达78.83%.
3.3.4二级指标权重的计算 根据2.3.2节中构建出的专利价值指标体系,以及式(8)和(9),计算可得各二级指标的熵值和权重,计算结果如表8所示.
表8 二级指标的熵值和权重Tab.8 Entropy and weights of secondary targets
3.3.5专利价值评估 根据式(15)计算各应用主题域的相对接近度Ei,同时对相对接近度进行10分制转换并取整,得到各应用主题域专利价值的得分ti,并对其排序,如表9所示.
表9 应用主题域的相对接近度和专利价值得分
3.3.6专利价值等级确定 根据表3可以得到钛领域应用主题域的专利价值等级,划分结果如表10所示.
表10 钛领域应用主题域的专利价值等级划分
3.4 钛领域专利预测模型的单元项填充
3.4.1专利源数据获取 钛领域的专利预测模型中单元项填充的专利检索策略与表4相同.
3.4.2基于MapReduce计算框架的单元项填充 根据单元项填充流程,本文以技术关键词和功效关键词生成技术功效共现矩阵,采用MapReduce计算框架对技术功效共现矩阵进行降维处理,输出包含相应技术特征词和功效特征词的专利文档,并统计专利文档的个数.此后,采用MapReduce计算框架,以25个DMC为基准对已筛选出的专利文档再次筛选,得到的专利文档即为目标文档,其个数即为专利预测模型的单元项.
3.5 钛领域专利预测模型的可视化
根据已确定出钛领域的技术维、功效维、价值维以及单元项填充结果,以技术维为x轴,功效维为y轴,价值维为z轴,结合单元项填充结果建立空间直角坐标系搭建专利预测模型,并通过Origin 2019b软件实现可视化.由于在x轴和y轴上使用全文字标注会导致三维专利预测模型不够清晰,所以本文使用代号表示相应坐标文字,代号与坐标文字的一一对应关系如表5和6所示.钛领域的专利预测模型如图3所示.
图3 钛领域的专利预测模型Fig.3 Patent prediction model for titanium field
4 基于专利预测模型挖掘钛领域的技术机会
根据技术机会的挖掘步骤,结合图3,可对钛领域的技术机会进行挖掘.
4.1 钛领域的专利预测地图
根据图3,绘制钛领域内的专利预测地图,如图4所示.
图4 钛领域的专利预测地图Fig.4 Patent prediction map for titanium field
4.2 钛领域的技术机会挖掘
4.2.1优先级的技术机会挖掘
(1) 一级专利价值等级区域中的技术机会.该区域中专利组合有896个,专利价值为10分的专利组合有433个,专利价值为8分的专利组合有164个,专利价值为7分的专利组合有299个.因此,在一级专利价值等级区域中,按照基于专利预测模型的技术机会挖掘步骤2,标准①进行挖掘,选择专利价值得分8分中的专利组合为技术机会.
(2) 二级专利价值等级区域中的技术机会.该区域中专利组合有 2 451 个,专利价值为6分的专利组合有194个,专利价值为5分的专利组合有892个,专利价值为4分的专利组合有 1 365 个.因此,在二级专利价值等级区域中,按照基于专利预测模型的技术机会挖掘步骤2,选择专利价值得分为6分的专利组合为技术机会.
(3) 三级专利价值等级区域中的技术机会.该区域中专利组合有 1 057 个,专利价值为3分的专利组合有157个,专利价值为2分的专利组合有370个,专利价值为1分的专利组合有530个.因此,在三级专利价值等级区域中,按照基于专利预测模型的技术机会挖掘步骤2,选择专利价值得分为3分的专利组合为技术机会.
综上,优先级的技术机会为得分是8分、6分以及3分的专利组合.
4.2.2次级的技术机会挖掘 比较不同专利价值得分区域,专利价值数量相近的专利组合为7分和2分的组合,以及10分和1分的组合.按照基于专利预测模型的技术机会挖掘步骤3,认为次级的技术机会为得分是7分和10分的专利组合.
4.2.3技术机会排序并描述 按照优先级和次级的技术机会的顺序,对钛领域内的技术机会进行描述,如表11所示.
由表11可知,根据专利预测模型,在钛领域中共有5个技术机会,根据其优先级别给予研发顺序的建议.其中①、②、③为优先级的技术机会,④和⑤为次级的技术机会.
表11 专利预测模型下钛领域的技术机会Tab.11 Technology opportunities in titanium field under patent prediction model
事实上,把技术机会按照优先级和次级的顺序进行了排列,可以更好地为资源有限型创新主体提供导航式的研发建议.这主要是因为创新主体大多受制于资金、人员等资源,对领域内的技术机会进行全覆盖式的研发显然不现实.因此帮助创新主体在力所能及的范围内选择适合的技术机会,展开导航式的技术研发,有助于提升其技术创新效率,提高技术创新成功率.同时由于技术机会是基于已有专利展开的,所以还能有效降低专利侵权的风险,保障创新型钛领域自主知识产权主体的基本权益.
5 结语
本文以采用PLSA算法,基于MapReduce计算框架,以海量专利为样本,构建三维的专利预测模型以实现对技术机会的挖掘,并以钛领域为例进行了应用.该模型不仅能通过专利发现技术研发的热点和空白点,同时突出了专利价值对技术前景的引导功能,使研发主体能更加清晰地掌握具有应用前景的技术,明确技术研发的目标,更迅速地定位技术研发过程中的重点和难点,帮助其提高技术研发的效率,有效节约了资源成本和时间成本,深化技术机会的内涵,辅助决策者制定更加明确的技术研发战略.
本文也存在一定的局限性.在样本选取上,未来还可以考虑其他形式的专利,如国防专利,以满足国防技术创新需要.此外,在对专利预测模型的应用上,未来还可以考虑双专利预测模型,即通过比较分析方法,比较先进主体和落后主体在同一领域内的专利预测模型,通过寻找二者的差异,为落后主体挖掘潜在的技术机会.