专利技术筛选的大数据技术
——在2018年知识产权南湖论坛上的主题发言
2018-02-06王文佳
曾 立 王文佳
一、概 述
近年来,几乎所有行业或多或少受到大数据的影响。科技渗透到各个领域,并且已经成为每个处理单元的必要元素。英国学者舍恩伯格和库克耶2013年合著《大数据时代:生活、工作与思维的大变革》,开启了大数据研究的先河。他们在书中指出,大数据带来的信息风暴正在变革人们的生活、工作和思维,一个大规模生产、分享和应用数据的时代正在开启。①维克托·迈克-舍恩伯格, 肯尼思·库克耶. 大数据时代:生活、工作与思维的大变革[M]. 杭州: 浙江人民出版社, 2013.
专利数据,作为专业行业基础数据、专利文献的源头,是指申请人提交的专利申请,经过专利审查部门的受理、信息采集、扫描、代码化加工、形式审查或实质审查等所产生的数据。专利数据,以其内容广博、数量巨大等特点,被人们誉为集科技、经济和法律信息为一体的科技信息资源。同一科技成果出现在专利文献中的时间比出现在其他信息载体中的时间平均早1~2年,因此,从专利文献分析入手,能够更好地掌握当前技术发展现状,以及未来发展趋势。专利筛选是从专利中获取有价值信息的重要途径,所以专利筛选为了解当前技术现状及进一步技术创新提供了重要依据。如何将大数据技术和专利筛选结合,更好地利用海量专利数据,使其产生此前不曾预料的价值,成为时下研究的热点。本文将从大数据专利筛选的现状入手,畅谈国防科技战略研究智库关于专利筛选大数据技术的设想方案。
二、专利数据与大数据技术
创新是推动经济实现成功与增长的动力,创新能力决定着一个国家的综合国力和长远发展潜力。②FURMAN J. L., HAYES R. Catching up or standing still? : National innovative productivity among 'Follower' Countries, 1978-1999[J]. Research Policy, 2004, 33(9): 1329-1354.当前,科学技术的飞速发展及其对经济与社会发展的超常规巨大推动力,已经成为当今社会的主要时代特征之一。③张志强. 洞察科技发展趋势 支撑科学发展决策——《世界科技研究与发展》2017年卷首语[J]. 世界科技研究与发展,2017,39(1):1-2.科技创新不仅是发达国家,更是发展中国家追赶和保持一定经济增长率的关键要素,在国家经济增长中发挥着关键作用。④WANG L., SZIRMAI A. The Unexpected Covergence of Regional Productivity in Chinese Industry, 1978-2005[J]. Oxford Development Studies, 2013, 41(1):29-53.党的十八大正式提出实施创新驱动发展战略,中国的创新能力不断提升,在许多方面取得了长足进步,已经跨入世界科技创新型国家行列。
2017年发布的《全球专利创新活动研究报告2016》指出,2008年至2015年,中国发明专利公开量和授权量年均增长率分别为20.9 7%与22.48%,中国国内的技术创新强势推动了全球专利技术创新的增长势头,中国已成为仅次于美国的专利布局目标市场。⑤国家知识产权局专利局专利文献部,中国专利技术开发公司. 全球专利创新活动研究报告[M]. 北京:知识产权出版社,2017.2018年发布的《2017全球创新报告》指出,尽管中国的专利增长速度近期有所放缓,但在过去的十年间,中国发明专利数量的年平均增长率仍保持22.6%的高水平,中国新发明专利的数量占全球总量的68.1%。⑥汤森路透. 2017全球创新报告:进无止境[R]. 北京:汤森路透,2018.
专利不仅仅是衡量创新能力的重要指标,其所囊括的大量零碎专利信息经过分析、加工、组合后,可转化为技术情报,为国家和企业的相关决策提供参考。无论企业还是国家,都将研发工作视为首要任务,并希望将资金和资源优先分配给研发活动,以获得更大的成功几率。专利筛选通过对专利数据分析挖掘,筛选出值得推广的专利技术,能够更好地配置资源,提高专利推广和科技成果转化的成功率。由于专利数量大、分布零散,专利筛选工作量大,耗时长,效率非常低。同时,专利数据集科技、法律、经济信息一体,如果采用传统的人工专利筛选方式,对从业人员素质涵养要求极高。日渐成熟的大数据技术为专利筛选提供了利器。
“大数据(Big Data)””概念在上世纪9 0年代最初提出时,是对无法用传统手段进行抓取、管理和处理的数据的统称。⑦卢青,赵澎碧.大数据环境下的专利分析模型研究[J]. 现代情报,2018,38(1):37-44.近年来,围绕大数据产生了众多新信息技术,高速、大规模的数据交换、互联成为现实。美国麦肯锡公司在其报告《大数据:创新、竞争和下一个生产力前沿》中指出,“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”⑧计算机行业-大数据(Big Data)专题报告[R]. 上海:光大证券股份有限公司研究所,2011.
大数据不是具体的方法,甚至不算具体的研究学科,而是对某一类问题或需要处理的数据的描述。具有以下四个层面的特点,即4个“V”⑨大数据分析技术的发展[EB/OL]. 2012-05-16. http:/ / tech. ccidnet. com / art / 32963/ 20120516/ 3859799_1. html.:
(1)海量的数据规模(Volume):人类社会的数据量在不断刷新一个个新的量级单位,已经从T B、P B级别跃升到了E B、Z B级别。其中,非结构化数据规模巨大、增长迅速。
(2)多样的数据类型(Variety):数据类型繁多。数据来自多种数据源,比如网络日志、视频、图片、地理位置信息等。 数据格式囊括了结构化、半结构化和非结构化数据。
(3)价值密度低(Value):大量的不相关信息,比如,连续不间断监控视频中,可能有用的数据仅仅一两秒钟。
(4)处理速度快(Velocity):大量在线或实时数据分析处理,而非批量式分析。数据输入、处理与丢弃,一秒钟完成,而非事后见效。
传统的数据存储和管理以结构化数据为主,因此关系数据库系统(RDBMS)可以满足各类应用需求。专利数据往往是半结构化和非结构化数据为主,结构化数据为辅,其筛选应用需要对不同类型的数据内容检索、交叉对比、深度挖掘与综合分析。面对这类筛选要求,传统的以结构化数据为主的数据库无论在技术上还是功能上都难以为继。
大数据领域每年都会涌现出大量新的技术,成为大数据获取、存储、处理分析和可视化的有效手段。大数据分析技术包括A/B测试、关联规则学习、分类、聚类分析、众包(c r o w d s o u r c i n g)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。⑩李广建,杨林. 大数据视角下的情报研究与情报研究技术[J]. 图书与情报,2012(6):1-8.这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的。对专利数据的深度分析主要是基于大规模的机器学习技术。一般而言,机器学习模型的训练过程可以归纳为最优化定义于大规模训练数据上的目标函数并通过一个循环迭代的算法实现。①苏金树,张博锋,徐昕. 基于机器学习的文本分类技术研究进展[J]. 软件学报,2006,17(9):1848-1859.在专利数据分析的应用过程中,可视化通过交互式视觉表现的方式来帮助人们探索和理解复杂的专利数据。可视化与可视分析能够迅速和有效地简化与提炼数据流,帮助人们交互筛选大量的数据,有助于人们更快更好地从复杂专利数据中发现科技现状、发展趋势。
目前市场上,以文本搜索为核心的数据框架平台越来越多。比如,德温特专利引文索引(DPCI)是由专利引文和科学文献引文两部分组成的引文数据库。这些引文可以追踪一件发明在成型过程中参考的所有文献、该项发明的影响,以及推动其继续发展改进的未来技术。用户可以洞悉专利有效性和侵权状况,揭示已有在先技术,发现空白领域,开展竞争格局调查。大数据技术整合了分布零散的专利数据,专利数据挖掘的深度不断加深。大数据技术的应用减少了专利筛选的工作量,缩短了时间,提高了数据分析的准确性。同时,大数据技术的应用打通了专利数据的更多维度,在一定程度上缓解了专利筛选人才短缺的问题。
三、国防科技战略研究智库的专利筛选项目
在大数据时代,人们迫切希望在由普通机器组成的大规模集群上实现高性能的以机器学习算法为核心的数据分析,为实际业务提供服务和指导,进而实现数据的最终变现。然而,非结构化数据分析目前仍是大数据技术的瓶颈。一方面,由于先验知识的缺乏,非结构化数据很难以类似结构化数据的方式构建出其内部的正式关系;另一方面,很多数据以流的形式源源不断地到来,这些需要实时处理的数据很难有足够的时间去建立先验知识。
非结构化数据所反映的信息蕴含着提高专利筛选效率的机会。只有解决非结构化数据的分析困难,才能更有效地将大规模专利数据中隐藏的信息和知识挖掘出来,克服逐渐攀升的数据量和复杂性对专利筛选的重重阻碍,驱动科技成果转化的效率。
针对当前专利分析大数据技术的瓶颈问题,国防科技战略研究智库(后文简称智库)计划利用“人工智能+大数据+小型超级计算机”的模式进行专利筛选技术开发。智库进行了超级计算机小型化研究。小型化就是针对特定专业具体需求,提供软硬件一体的定制服务。小型超级计算机可以为人工智能、大数据技术提供充足的计算性能。智库计划以小型超级计算机平台为基础,运用人工智能、大数据技术,从多个类别、外部来源、类型聚合中提取内容,包括专利数据库、互联网数据、期刊文献数据库等,使用自然语言处理、机器学习和其他分析来组织、分析和可视化专利数据和内容,理解含义并识别趋势、模式、关联和异常。这个项目的成果可以为技术研发人员、投资方和政府提供辅助决策和咨询服务。
四、结 论
专利筛选可以服务于产品、产业和国家战略,为各方提供科学辅助。专利数据是技术研发的工作基础,进行专利数据分析研究,不仅仅是为技术研发过程中的问题解决方法提供良好策略,也可将之用于考查技术系统开发应用的一般规律。通过专利数据筛选分析,研发人员可以明确要做什么,接下来的研究在多个技术路线中采用什么样的技术或手段实现产品和服务。当投资者开始关注一项新技术,首先要做的是了解这个产业的格局,市场的趋势、政策的趋势、技术的趋势和地区是否能够承载某一产业发展的各种因素,例如区域因素和人才因素等。专利数据筛选分析能够找到“钱去向哪里、团队去向哪里、谁在研究什么技术,以及这项技术的基础和前景”等方面的线索。投资者可以根据专利技术筛选分析,识别技术,制定自己的投资战略和计划。专利技术筛选分析可以揭示各个产业的技术发展格局,聚焦前沿技术、交叉技术。从国家战略和政府层面来看,利用专利技术筛选结果能有效地进行技术识别,揭穿技术欺骗,建立中国特色的科技发展路线,掌握未来世界科技发展的话语权。