大数据与专利分析
2017-04-25马兵
马兵
[摘 要]大数据时代下专利分析的发展趋势具有重要的研究价值。本文首先介绍了专利分析的现状,分析了现阶段专利分析存在的不足,随后介绍了大数据的应用、特点以及大数据时代所带来的变革。最后基于大数据分析的主要内容,展望了专利分析与大数据技术的结合前景。
[关键词]大数据 专利分析 数据挖掘 可视化
中图分类号:TU94 文献标识码:A 文章编号:1009-914X(2017)05-0298-01
一、引言
随着网络、通信、运算、存储技术的发展及成本降低,大数据在搜索引擎、互联网金融、电子商务、医疗卫生等诸多领域已经开始产生重大影响。“大数据”作为当前科技关键词的大热门之一,截至本文刊发时,在百度搜索引擎中相关网页搜索结果超过1亿个,相关新闻搜索结果逾148万篇。数据已经成为重要的生产要素之一,相关组织、机构所掌握的数据规模、对数据的分析运用能力已经成为考量其综合实力的重要因素。专利分析的主要功能在于从孤立的专利文献中多层次多角度地挖掘信息,并处理成具有预测功能的报告为企业所用,而对海量数据进行挖掘、计算及可视化,正是大数据分析的主要内容。可以预见,基于大数据的专利分析将成为未来的发展趋势。
二、专利分析现状
一般认为,专利分析发轫于1949年Seidel所提出的专利引文分析专利文献重要性的概念,但将其应用于企业的战略与竞争分析,是上世纪90年代后随着信息、网络、数据库技术的发展才得以实现的。
专利分析通常是指对专利文献进行数据挖掘、加工、统计处理,进而获取符合分析目标要求的有价值信息,主要应用包括专利导航、专利预警、专利布局、专利评估、技术规避、侵权分析等。
专利分析的方式方法很多,其过程一般包括数据采集处理阶段、专利分析阶段、报告形成及成果展示阶段。由于专利分析的对象数据规模庞大,因此通常需要借助计算机和分析工具,但是人员的参与仍然必不可少,例如在数据采集处理阶段,需要完成技术分解、检索、数据加工、数据标引等工作,而检索过程中的检索策略的制定、检索要素的筛选、结果噪声去除等很大程度上依赖于专利分析人员的经验和能力,这也导致了专利分析的高成本、高门槛。另外,由于专利的早期公开延迟审查制度,导致专利分析所针对的专利文献都是一至两年前申请的技术方案,不能代表最新技术的发展现状。
三、大数据时代
互联网用户对大数据有了越来越多的直观体验,在社交网络中被推荐的联系人或内容,是基于社交网络大数据得到的用户之间、用户与社区之间的隐含关系信息;在电商网站被推荐的商品,是基于处理海量的访问、购买、评论数据分析出的消费行为信息;在搜索引擎中定向投放的广告,是通过对广告大数据的处理分析得到的。
著名管理咨询公司麦肯锡首先预言了大数据时代的来临,“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来”。阿里巴巴董事局主席马云则直接地指出,虽然阿里巴巴是全球最大的零售平台,但是阿里巴巴不是一家零售公司,而是一家数据公司。
“大数据”相对于传统“小数据”的特点,传播非常广泛的是Gartner集团分析师Laney所总结出的三个“V”,即容量(Volume)、种类(Variety)、速度(Velocity)。以此为基础,IBM进一步将其扩充到四个“V”,即:1、容量(Volume),大数据时代的数据量已达PB(1024TB)乃至EB(1024PB)级;2、种类(Variety),大数据时代的数據类型庞杂,除结构化数据,还包括互联网自媒体数据、图片、音视频等非结构化数据;3、速度(Velocity),大数据需要快速的处理才能获取有价值的信息;4、真实(Veracity),需要从大数据中筛选真实数据才能得到真实的信息。维克托·迈尔-舍恩伯格在《大数据时代》中提出,大数据时代带来的变革主要包括:不是随机样本,而是所有数据;不是精确性,而是混杂性;不是因果关系,而是相关关系。在大数据时代,不再需要借助随机采样的方法处理数据,而是对所有数据进行处理以分析具体事件;不再需要数据的微观精确性,只需在宏观上洞悉数据的总体方向;不再需要事件与原因之间的因果关系,而是通过相关关系了解事件的发生进程。
四、基于大数据的专利分析展望
基于大数据分析的主要内容以及专利分析的现状,可以预测未来基于大数据的专利分析发展将包括以下几个方面。
1、基于语义引擎数据采集处理。以往的机器检索,计算机只能在字符匹配层级认知用户的输入信息,不能理解信息的含义,特别是在专利信息的检索过程中,检索策略的设定和调整都需要借助人工方式。而随着计算机技术和人工智能的发展,通过对网络大数据的语义标注处理,使计算机能够从语义层级理解输入信息,例如Apple公司的语音识别工具Siri、专利检索系统Patentics等,都采用了语义引擎。在此基础上发展专利数据采集,例如实现语义专利信息检索,可以降低对专利分析人员个人能力的依赖,降低专利分析的成本。
2、基于数据挖掘算法、预测性分析和数据质量管理的专利分析。大数据分析的核心在于数据挖掘算法,从大数据中挖掘价值信息并研究对象之间的相关性,从而挖掘出对象间的未知联系,利用这种相关性信息,可以实现定制化分析,并将专利分析的结果与企业需求结合得更加紧密。通过预测性分析模型,从大数据中获得规律性信息,可以预测专利发展趋势、技术乃至行业的发展走向,允许企业根据专利分析结果对专利布局、技术发展路线做出预先判断,能够很大程度地避免由于专利公开滞后对专利分析准确性造成的影响。通过数据质量管理方法,借助标准化数据处理流程和质量管理方法对数据进行处理,可确保获得的分析结果具有较高的质量和可靠性。
3、基于可视化分析的报告形成及成果展示。可视化分析能够自动将负责数据分析结果转换为图表,借助图表简单直观的展示复杂的大数据分析结果,还能够针对不同的分析对象选择不同的展示内容和展示方式,能够有效的降低专利分析使用门槛、扩大用户群体。
五、结语
大数据时代的到来为专利分析提供了新的技术工具和技术思想,对从业人员来说既是挑战也是机遇。将大数据分析充分运用到专利信息的数据挖掘、可视化预测,改善专利分析的用户体验将成为专利分析的重要研究发展方向
参考文献
[1] 马天旗.专利分析—方法、图表解读与情报挖掘[M].北京:知识产权出版社,2015:1.
[2] 杨铁军.专利分析实务手册[M].北京:知识产权出版社,2012:1-10.
[3] 邓鹏.大数据时代专利分析服务的机遇与挑战[J].中国发明与专利,2014(2):29-31.
[4] 百度百科.大数据[EB/OL].[2017-03-20].http://baike.baidu.com/link?url=_00e4zQIxq05qyc6EGaN_y8x9knCoZJQA6iEMuqlEY4tcRklXrSCrtKOmISjk4LN_xoiqzmY4Yz6kI_quMeha1vqNWEB4Hyt5CEwgpcbckFqno2gSm2yxRDFeqVdG39M.