人工神经网络在渔业高价值专利筛选中的应用
——以中国水产科学研究院为例
2021-03-09王书磊刘晓萌刘建伟
金 武,王书磊,刘晓萌,夏 晔,刘建伟*
(1.中国水产科学研究院淡水渔业研究中心,江苏无锡 214081;2.中国水产科学研究院,北京 100141)
渔业专利作为渔业科研院所知识产权的重要组成部分,也是渔业科学技术和经济活动中产生的渔业领域核心竞争力的重要资源,对促进我国渔业发展和制定发展战略,助力渔业研究及应用的创新发展具有重要作用[1]。中国水产科学研究院是中国水产科研领域的权威机构[2],其发表的专利能够较好地反应中国渔业领域专利基本情况。截至2018年年底,中国水产科学研究院累计申请8 000余项专利,其中已经转化的渔业专利具有哪些量化的特点,如何从已有专利中筛选出高价值专利并重点做好这些专利的转化,这些问题目前仍缺乏有效的工具去解决。
人工神经网络作为数据挖掘和建模的重要技术手段之一,属于人工智能(artificial intelligence,AI)的技术范畴。它不需要有关体系的先验知识,具有自适应建模学习及自动建模功能[3],并能从大量数据中挖掘出传统分析方法不能发现的、隐含的、先前未知的和对决策有潜在价值的关系、模式和趋势[4]。当系统环境发生变化时,只需输入新的资料让模型再学习即可很快跟踪系统的变化,可操作性强[5,6]。它在一些典型的非线性系统,如:生态系统[3]、城市用水需求组合[7]、海淡水水质监测[8]和湖泊富营养化[9]等分析与建模中得到了广泛应用。
利用神经网络建模对中国专利布局、高价值专利筛选的探索也取得了一些进展[10-16]。但渔业专利作为我国农业核心竞争力的重要资源之一,专利转化率仍有较大提升空间[17]。利用神经网络及其各种衍生模型进行专利等级划分的尝试取得了长足发展[10,11,13,16,18-20],但利用神经网络进行行业细分领域专利等级划分的深入研究仍较少。本文通过对中国水产科学研究院已有专利进行价值高中低人工分类标注,并利用人工神经网络对现有数据进行学习,建立数学模型,以期为提升专利管理效率,重点管理渔业高价值专利提供参考。
1 材料与方法
1.1 专利数据采集
根据中国知网专利数据库进行申请人为“中国水产科学研究院”模糊搜索的结果,截至2019年8月7日,该数据库收录专利申请日覆盖2007年11月1日—2019年1月11日,中国水产科学研究院(因北戴河中心实验站、营口增殖实验站、长岛增殖实验站及下营增殖实验站专利申请量相对较少或收录不完整,最终数据集中未收入)各类专利合计6 592项。其中2007年和2019年专利数据库收录不全,这两部分数据做剔除处理。经过数据清洗,包括删除重复数据、补充缺失值和数据归一化等操作后[21],5 404项专利数据集作为样本数据用于后续处理,专利申请日覆盖2008年1月1日—2018年12月31日。该数据集包括专利申请人、专利发明人、申请号、公开号、申请日期、邮编、地址、专利代理机构、代理人、国省代码、摘要、主权项、主分类号、专利分类号、申请周期、法律公告日和法律状态17项信息。
1.2 专利计量参数
专利计量参数来自商业数据库Patentics(https://www.patentics.com/),其中包括专利度、独权度、方法度、特征度、引用数、自引用数、非自引用数、引用公司数、被引用数、影响因子、被自引用、非被自引用数、被引用公司数、被引用国家数、同族数和同族国家数16个变量。相关变量的描述见表1。
表1 数据变量定义Tab.1 Definition of data variables
1.3 数据处理
经合并专利信息和专利计量参数后,共有5 404项数据用于神经网络建模分析。原始数据根据最大值-最小值法进行归一化处理。通过对专利法律状态进行手动标记后,随机挑选70%的数据用于模型学习训练,30%的数据用于测试模型效果。模型准确度通过(accuracy,ACC)比值法计算:
式(1)中:TP为真阳性,TN为真阴性,FP为假阳性,FN为假阴性。
根据数据集中的法律状态变量,将专利申请权、专利权的转移,专利实施许可合同备案的生效、变更及注销和著录事项变更标记为第一类(高价值),授权专利标记为第二类(中等价值),其余全部标记为第三类(一般价值)。数据分析采用R统计软件和neurallnet包,人工神经网络实现高价值专利筛选代码[11]经修改后用于分析。为避免模型不收敛,收敛误差设置为1×107。人工神经网络模型的评估采用混淆矩阵法计算yACC值。
2 结果
2.1 专利价值评估单隐层人工神经网络模型
当隐层设置等于5时,绘制neurallnet包默认单隐层BP(back propagation)神经网络图像如图1所示,每个网络连接上的数值为该连接的权重值。该模型的准确度为73.59%,达到预期目标。trueclass为模型输出对专利划分的类别。可以将该模型部署到其他的新的数据集上,实施高价值专利的筛选工作。
2.2 专利价值评估深度神经网络模型
当隐含层改为具有两层隐含层的神经网络时,结果如图2。模型的准确率降为10.92%,说明单隐层的网络预测结果优于深度神经网络。如果经过扩大训练集比例,调整输入变量个数等优化后,仍显示单隐层人工神经网络模型优于深度神经网络,则可以利用单隐层神经网络进行高价值专利的筛选。
3 讨论
价值专利是指具有较高使用价值、交易价值和附加价值的专利,能够使得专利权人通过使用专利技术进行生产经营获得较高收入,或者能够通过交易行为或者质押等类交易行为获取较多收益,或者通过其附加价值为专利权人带来间接的、潜在的或隐形的某种积极效果[18]。高价值专利的识别长期以来缺乏可供实际操作的有效识别方式[22],对专利权价值评估和高价值专利识别,国内外学者已经开展了一些研究,但是多集中于评估模型的理论研究[10-13,18]。
图1 专利价值评估单隐层人工神经网络模型Fig.1 Single hidden layer artificial neural network model for patent valuation
图2 专利价值评估双隐层人工神经网络模型Fig.2 Two hidden layer artificial neural network model for patent valuation
近年来,中国专利申请量和授权量都快速增长,随之而来给专利审查和科研院所知识产权管理部门带来了极大挑战。一方面,专利审查部门需要将高价值专利审查周期压缩;另一方面,知识产权管理部门在管理海量专利时,缺乏工作重点,导致一部分高价值专利束之高阁,客观上降低了专利的转化效率。借助于以人工神经网络为代表的人工智能技术,可以快速将知识产权管理部门的工作重点集中在高价值专利的转化方面,促进成果转化,提高转化效率。根据本文建立的人工神经网络及分析结果,今后可以从扩大渔业专利训练数据集、调整模型输入变量,选择合适的隐含层等角度进一步提升模型的准确度。