大数据驱动下的知识产权布局模式与实证研究*
2020-09-16刘熙东
刘熙东
(1.华南农业大学图书馆 广州 510642;2.华南农业大学知识产权信息服务中心 广州 510642)
1 引言
知识产权布局是介于知识产权战略与专利布局之间的概念。知识产权布局以专利布局为核心及主要内容,是知识产权战略的核心及重要表现形式。知识产权战略的落实、专利布局的提升均离不开知识产权布局,特别是在一些性新兴产业、创新型企业,知识产权布局成为企业发展战略不可或缺的组成部分。专利布局目前没有统一的概念,马天旗认为[1],专利布局是依据自身的经营目的和发展战略,综合考虑产业、市场、技术、法律等因素,在技术领域、专利申请地域、申请时间、申请类型和申请数量等方面进行有针对性、策略性和前瞻性的专利申请或其他方式获取专利的规划和动态部署过程。知识产权布局是在专利布局的基础上,关联商标、版权、商业秘密、地理标志、植物新品种等知识产权或市场准入资格,实现知识产权价值的最大化,形成支撑和促进企业经营发展、提升市场竞争力的知识产权格局[2-4]。可见,知识产权布局比专利布局形式更多、内容更广、数据更庞大。近年,知识产权布局逐渐为人熟知,其研究与应用越来越广泛,这缘于计算机、信息及网络技术的快速发展,新的数据处理技术与数据分析工具不断出现,而大数据,正是其中关键驱动因素。
2 大数据技术及其应用
2.1 大数据的特征
目前学术界对大数据尚未形成统一、广泛认可的定义,一般从大数据的特征来进行概念解释。David Reinsel[5]等人认为:大数据是指利用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集,是指无法通过统计分析等常规手段、常规途径,而必须通过新兴信息技术手段获取和分析的大容量数据。大数据具有Volume(数据量大、规模性广)、Velocity(产生及处理速度快)、Variety(结构类型多样)、Value(蕴含价值信息量巨大)的特点[6]。因此,大数据可以看成人们通过运用互联网及现代信息技术手段,对海量不同类型数据进行快速有效处理,获得的对自己生产生活有利有益的数据信息。据世界知识产权组织统计,全球专利文献信息已超亿篇,而一篇专利文献又涉及申请人、发明人、发明人所在国家、申请人所在国家、引用等100 余条代码或字段,存在公开、实审、授权、许可、转让、失效等诸多法律状态,同时还关联着产业、市场、法规等信息,已经符合大数据的基本特征,传统的统计分析技术难以胜任知识产权信息的分析处理。
2.2 大数据技术
技术是大数据价值体现的手段和前进的基石,大数据技术是一种针对海量数据进行处理的技术,按照大数据处理的过程,可分为大数据的采集与预处理、大数据存储与管理、大数据计算模式与系统、大数据分析与挖掘、大数据可视化分析以及大数据隐私安全等方面[6]。彭宇[7]等人认为大数据处理技术体系主要涉及数据采集技术、存储技术、分析及挖掘技术、可视化呈现技术四部分。因此,大数据技术主要有对结构化数据、半结构化数据以及非结构化数据进行高并发数采集的大数据数据采集技术;建立在分布式存储基础上的对异构数据云存储大数据存储技术;导入数据量频繁、查询请求密集的大数据分析技术;采用分类、聚类等复杂算法的大数据挖掘技术;呈现需求多样、数据维度多、易于理解的大数据可视化呈现技术。大数据的采集、存储、分析与挖掘、呈现四个技术环节互相配合协作,是大数据价值有效实现的技术基础。大数据技术的重要特征是对“全部”数据进行收集与分析,这是大数据分析区别于传统的数据分析的重要特征。而知识产权分析具有“查全”的要求,是针对全部数据的分析。因此,大数据技术完美契合知识产权分析的要求,在知识产权布局中具有很好的发挥空间。
2.3 知识产权布局中的大数据技术
大数据技术使专利数据采集更加全面、数据分析更加高效、数据挖掘更加精准、数据可视化更加直观,使专利布局能够进一步结合相关的商业、经济、贸易、技术、诉讼等信息,关联相关的商标、商业秘密、植物新品种、地理标志产品、药品登记等知识产权与市场准入资格,使这些孤立的信息上升为企业发展中有价值的情报,为知识产权布局提供强有力的技术支撑[8]。知识产权布局中常用的大数据技术列举如下:
(1)数据采集技术中的语义分析技术
专利制度中强制性公开的要求,以及专利文献的自然语言的特点,使得专利文献中包括大量的同义词、近义词、概括性描述,特别是中文修辞法的采用,使上下文关系错综复杂。通常“字符匹配层面”的机器检索,计算机不能理解输入信息的含义,在应用于专利文献检索时,获取结果包括大量噪声信息,必须人工去噪,使得数据采集成为专利分析中耗时最多的工作环节。通过大数据技术,向语义分析平台提供巨量的关键词词库和分词模型,为语义分析神经网络模型提供全面巨量的训练样本,并且借助云计算平台等运算手段,使得数据库能够在语义层级理解输入的信息,并将呈现最适合的检索结果[9]。同时,基于大数据的语义分析技术不仅可以使语义检索成为可能,还可以发展至实现图形检索、化学结构式检索等智能高效的检索。比如Patentics、XPlat、Patsnap 等检索工具,在云计算、语义检索、结构式检索方面各有优势,合理利用这些语义检索技术,可极大地提高分析人员的检索速度与准确性、提升知识产权布局效果与效率。
(2)数据分析技术中的关联性分析
寻找数据之间的关联性是大数据分析中最主要的工作之一,关联性数据的发现可以为研究人员带来巨大的价值,因此,数据挖掘及分析中的关联性分析技术也是大数据技术的核心内容。从知识产权信息中挖掘信息并研究其间的相关性,可以使知识产权的时空呈现更加立体,布局更加合理有效。目前流行的大数据分析工具Hadoop,其分布式文件系统HDFS 有高容错性,可以被设计将文件系统分布在廉价的存储设备中,并能够在访问时以流的形式提供高吞吐量数据,为应用程序挖掘信息的关联性提供技术支持[10]。比如Innography 等分析平台,能将专利数据与公司财务数据、诉讼信息、商标信息无缝关联。
(3)数据挖掘技术中的预测性分析
借助大数据分析工具,得出规律性信息,可以进行预测性分析,支撑企业进行前瞻性的知识产权战略布局。通过将竞争对手、合作伙伴、关键发明人公开发表的学术著作、起草的标准、商业贸易往来、法律诉讼情况、金融资本运作等信息关联成有机的生态系统,多维度地预测目标对象的研发、布局乃至行业发展方向,可及时调整研发方向及公司发展战略[9]。大数据预测性分析技术主要有Apriori 算法、CARMA 算法、FP growth 算法等。比如PatentSight 分析工具,可通过专利资产指数进行企业发展预测。
(4)数据呈现技术中的可视化技术
大数据的可视化技术不是罗列或统计数据的展示,而是以概括的形式从大数据中提取信息,包括信息的多变量和多属性的集中展现。数据可视化分析能够通过图表简单直观地展示多维的大数据分析结果,并可以采取不同的展示方式以符合用户需求,有效地降低知识产权分析门槛、扩大用户群体及推动知识产权布局的普及[11]。可视化技术各类繁多,比如Echarts、Tableau、Qlikview 等都有广泛的应用。
(5)其它大数据技术
大数据挖掘技术中的数据质量管理技术,可对数据进行处理,确保获得的分析结果具有较高的质量和可靠性。大数据分析技术中的聚类技术,可根据数据之间的相似性及差异性对数据分类,将相似度高的数据聚成一类,比如层次聚类、K-Means 聚类、DBSCAN 聚类等。此外,还有回归分析、神经网络算法等大数据技术在知识产权布局中也有一定的应用。
3 大数据驱动的知识产权布局模式
知识产权布局模式是在知识产权分析评议的基础上,关联产业、用户、法律等信息,协同市场部、研发部及决策层,根据自身能力做出符合企业发展战略的知识产权规划并付诸实施[12]。知识产权分析评议可以帮助企业从宏观层面了解专利技术发展脉络、技术热点和整个领域的专利布局竞争态势;从微观层面进一步明晰可借鉴的布局策略、筛选和判定有价值的空白点。具体操作上,知识产权布局模式是基于信息检索了解应用领域内相关专利技术及其它知识产权现状,并对数据作相关的处理,再分析企业将面临的产业环境、市场竞争状况,发现竞争对手及合作伙伴,对可能的竞争对手知识产权布局深入剖析,为错位竞争及限制对手提供有效决策信息;然后将分析结果可视化呈现给研发部门、市场部门、管理层等相关人员,并根据自身能力与资源投入情况,提出企业研究方向及发展目标,再与产业、市场、政策法规及企业发展战略等信息关联验证后,提出知识产权布局方案。大数据驱动的知识产权布局模式见图1。
图1 大数据驱动的知识产权布局模式
(1)信息检索
知识产权信息检索是布局的基础,包括专利检索、商标检索、版权检索、植物新品种检索等。以专利检索为例,其检索字段可分为号码、名称、日期、关键词、代码等类型,每种类型又包含若干种字段,比如号码类型字段中的公开号、公告号、申请号、专利号、优先权号的区分就给使用者带来困难,而关键词的选择更具挑战。采用大数据技术中的语义检索、图形检索、结构式检索给知识产权信息的检索带来了极大便利,降低了知识产权信息检索的门槛,提升了查全查准率,节约了分析人员的检索时间。
(2)数据处理
数据处理是以分析目的为导向对采集数据的加工整理,主要包括数据验证、数据清理、数据标引等。采用大数据的数据有效性技术进行查全、查准率评估,可快速进行数据可行性验证;通过局部异常因子检测技术剔除异常值,加快数据清理速度;通过灰色关联分析、共现分析[13]、神经网络差值等数据插补技术补全缺失数据,实现专利权人标准化,可进行数据自动标引,大大加快数据处理速度。
(3)数据分析
通过大数据中的分类与文本聚类技术,可以找出数据库中具有相同特点的数据项并建立映射关系,增加知识产权分析的维度及便捷性;通过关联性分析技术,将知识产权布局与产业、商业、贸易、法律信息关联,可以由一条信息追踪至相关信息,有助于进一步了解知识产权布局与产业发展、转移之间的关联,进行行业风险预警、提升知识产权布局效果。
(4)分析结果可视化
知识产权分析结果的可视化可分为数据可视化、信息可视化和思维可视化三个层次。数据可视化是分析结果可视化的基础环节;利用大数据技术对数据的加工整理,通过专利地图、气泡图展示更深层次的信息,达到信息可视化;进一步将信息深度加工融合与关联,实现数据到信息最后到情报的思维过程,即思维的可视化。通过大数据技术对分析及布局结果以便于解读及更易被感知的可视化图表展示,并与用户交互,将复杂信息以图形化形式展示,实现从随机、混乱、模糊的数据中发现隐含信息或揭露其关联关系。
(5)自身能力匹配分析
企业发展方向及技术应用领域往往有多种选择,具体布局的策略、目的要考虑企业自身技术储备与能力禀赋。对企业现有知识产权布局情况、研发能力、合作关系进行评估分析,明确企业优势与问题,提出匹配自身能力的知识产权布局,可以减少试错成本,缩短研发时间,提升知识产权布局合理性[12]。自身能力分析中的大数据技术与数据分析部分相似,通过关联技术联系地理、人口、经济、技术、市场、竞争对手等情况,明确自身在特定市场的优劣势,进行预测性分析。
(6)布局规划
根据识产权分析评议成果,协同市场部门结合市场信息对技术应用前景进行分析;协同管理层结合企业发展战略与愿景,选定即将进入的技术领域及知识产权布局范围,明确布局策略。最后综合技术、产业、市场、政策法规及企业发展战略等信息,再结合技术结构、产品结构、地域结构、价值结构、时间结构、类型结构等知识产权布局要素,选择合适的知识产权组合类型,制定知识产权布局方案。
(7)布局实施
知识产权布局的实施至关重要,需要企业全员的协同与努力。研发部门是布局实施的基础和关键,把控关键时间节点,根据布局规划进行研发,确保布局规划中预期目标的实现;知识产权部门要及时进行知识产权保护,公开阶段性创新成果,阻断潜在的竞争对手,为研发项目保驾护航;市场部门、管理层面配合实际需要,做好辅助支持类工作[12]。
4 “唑虫酯”知识产权布局实务
华南农业大学知识产权信息服务中心从2013年起为学校科研团队提供知识产权信息服务,在农药学团队成功开发新型杀虫剂——“唑虫酯”之后,中心提供了专题检索、查新、知识产权分析评议、知识产权培育等服务,提出了知识产权布局规划,参见“唑虫酯”知识产权培育布局流程图(图2),系列服务成果在首届粤港澳大湾区高价值专利培育布局大赛中获得优秀奖,在高校科研院所参赛队伍中排名第一。
4.1 全球杀虫剂知识产权分析
“唑虫酯”作为杀虫剂的一种,了解全球杀虫剂行业态势及创新情况是“唑虫酯”知识产权布局的基础,主要从以下6 个环节展开。
(1)数据获取与处理。通过杀虫剂技术分解及语义检索,对主流杀虫剂辅以化学结构检索,完成对全球杀虫剂专利申请检索,得到1980年至2019年138 091 件杀虫剂专利申请数据。对其进行数据清洗、有效性验证、异常因子检测等数据质量管理,数据插补及关联分析补全与标准化数据,最后进行数据标引。
(2)专利申请趋势分析。对全球杀虫剂专利申请趋势及增长率分析,发现上升趋势明显,美日欧专利申请增长幅度逐渐加大。通过数据关联分析发现美日欧及中国杀虫剂登记中,原药的登记逐渐减少,而剂型的登记快速增加,说明原药的创新难度增大,新型化合物的发现更为可贵。
(3)专利保护地域分析。利用同族扩充等大数据关联性技术,挖掘在不同国家专利及其它知识产权布局情况,对技术产出地与技术目标市场对比分析,发现全球杀虫剂专利主要产出地为中国、美国、德国与日本,但中国杀虫剂专利主要向中国大陆提出,对外申请率为5%,即平均每100件中国专利产生5 件对外申请,而美国、德国、日本通过大型农化公司在本国之外进行严密的专利布局,对外申请率为226%,是中国的45.2 倍。
图2 “唑虫酯”知识产权培育布局流程图
(4)竞争对手分析。通过竞争对手关联性分析,可以找出潜在的竞争对手、合作伙伴等[14]。从全球杀虫剂专利申请量出发,关联申请人的技术性指标,市场活跃度指标进行分析,发现行业竞争力以拜耳集团最强,其次是巴斯夫、先正达、Corteva AG.、住友化学及富美实等。
(5)重点竞争对手——拜耳集团专利分析。对行业巨头拜耳集团进行分析,以聚类法分析其杀虫剂方向创新投入、专利地域布局情况,发现拜耳集团在杀虫剂领域专利申请持续增长,专利布局重点国家有美国、日本、德国等技术先进国家,中国、巴西、加拿大等生产大国,也有澳大利亚、有阿根廷、墨西哥及印度等应用大国,氟虫腈是其主推杀虫剂产品。
(6)重点产品——氟虫腈专利分析。通过数据挖掘技术发现,氟虫腈在1986年由法国罗纳-普朗克公司研发成功,后因企业合并归入安万特作物科学公司,然后被拜耳收购,其中氟虫腈部分用途专利由于反垄断之故出售给巴斯夫,这证明良好的知识产权运营对杀虫剂的推广至关重要。引文跟踪分析发现,氟虫腈专利布局不是一步到位的,经历从化合物、到制备方法、再到衍生物等改进的时间脉络,遍布20 余个国家及地区空间分布,覆盖配方、制剂、用途,包括在卫生用品等非农用途,可为化合物知识产权保护提供借鉴
4.2 自身产品——“唑虫酯”知识产权分析
(1)“唑虫酯”知识产权基本情况统计。对“唑虫酯”相关知识产权的种类、数量、法律状态、剩余保护年限等基本信息进行统计,共有发明专利12 件,实用新型专利2 件,商标1 件,企业标准3 件,新农药登记2 件。
(2)知识产权撰写质量分析。考察权利要求数量、独立权利数量和权利要求保护层次,发现“唑虫酯”基础专利权利要求数量多,独立权利要求保护主题丰富,保护层级合理,专利撰写质量高。对同一产品的不同保护形式的关联分析,发现,“唑虫酯”化合物专利通过了PCT 专利申请,可以多个国家、地区或专利组织申请,保护范围大。
(3)稳定性分析。根据专利法律状态、中国专利在先审查记录以及专利检索结果对其新颖性和创造性分析判定,发现“唑虫酯”化合物是一种全新骨架的杀虫剂,语义检索及结构式检索结果均确认其为原创化合物,是基础性专利,该专利及由此衍生的生产方法、制剂等专利均具有很强的稳定性。
(4)保护力度分析。分析发现“唑虫酯”化合物专利独权没有非必要技术特征,属于化合物的马库什权项保护,规避可能性小。目前主要有化合物专利、制备方法专利、高效施药设备专利、制剂专利等组合,专利布局力度较强。化合物专利有2 项独权,8 项从权,权利要求层级合理、权利稳定。
(5)知识产权布局分析。“唑虫酯”相关知识产权有发明与实用新型专利;涉及化合物、制备方法、高效施药设备、制剂等专利组合,布局合理;基础专利独权种类多,保护范围广,从权数量多,层层递进,撰写质量高;有1 件PCT 同族专利申请,可进入全球150 个国家或地区进入专利布局,地域布局范围广。此外,“唑虫酯”同时采取了专利、商标、新农药登记的多种保护方式,将相关技术写入企业标准,提升了保护力度。由于“唑虫酯”正处于新农药登记试验阶段,尚未正式上市销售,当前知识产权布局可以支撑本项目的开发战略。
4.3 “唑虫酯”知识产权布局建议
综合杀虫剂行业态势、氟虫腈知识产权布局特点,“唑虫酯”研究进展及知识产权布局情况等分析成果,提出“唑虫酯”分地域、分阶段、分产业链的“树型”知识产权布局规划。
(1)核心专利分地域布局。采用PCT 途径进行专利申请,化合物专利重点布局技术先进国、生产方法专利主要布局生产大国,制剂专利主要布局产品应用国。
(2)外围专利分阶段布局。加强技术秘密的保护,合理安排外围专利申请提交时间,主要通过控制制剂、剂型及配方专利申请,以及包装设计外观、产品商标的申请,延长技术保护年限。
(3)关键技术分产业链布局。
完善产业保护链条,在产品取得预期销售成果后进行产业链上、中、下游的知识产权保护,重点保护化合物中间体、生产方法、生产设备、生产工艺、检测技术的专利保护,构建自由实施的知识产权框架。
(4)重视化合物新用途的保护,完善分阶段及分产业链布局规划。适时启动“唑虫酯”在菜用、农用、卫生用途的研发及知识产权保护,扩大产品应用范围。
(5)重视合作伙伴选择,促进技术成果实施推广。选择合适的战略合作伙伴进行专利转化,国内合作伙伴可选择深圳诺普信农化股份有限公司、广西田园生化股份有限公司、广东中讯农科股份有限公司等。
5 小结
随着国家创新驱动发展战略的实施,知识产权布局越来越受到重视。大数据技术的成熟推动着信息分析利用的快速发展,为知识产权布局带来广阔的应用前景。大数据技术推动知识产权布局的应用,节省了数据检索处理的时间,增加了信息分析维度,扩大了信息覆盖范围,一方面也使知识产权信息服务人员能将更多的精力放到全局性、系统性工作中,将知识产权战略、专利布局、高价值专利培育等做实做深;另一方面可以增加知识产权布局的针对性与有效性,帮助企业实现创新与发展互相促进的良性循环。大数据驱动的知识产权布局模式,还可扩展到知识产权导航、知识产权分析评议、高价值专利培育等高端知识产权信息服务,为相关服务提供参考,其中,“唑虫酯”的“树状”知识产权布局模型也可为原创性产品,特别是新型化合物的知识产权布局提供有益的借鉴。