APP下载

Hadoop的专利现状研究

2018-03-20成都柳沈知识产权服务有限公司王琦玥

电子世界 2018年4期
关键词:专利技术日志专利申请

成都柳沈知识产权服务有限公司 王琦玥

一、Hadoop概况

随着计算机性能以及存储能力的不断增加,数据的产生以及获取变得越来越容易。我们正处于一个数据爆炸的年代,然而面对海量的数据,如何通过计算机进行分析从而利用真正有用的信息是现代社会急需解决的问题。Hadoop是目前最流行的共享存储和分析系统,为高效正确的处理海量的Web数据提供了可能性。它通过HDFS实现数据的存储,然后通过MapReduce来实现数据的分析和处理,提高了数据的处理能力,并有机会针对海量的数据进行分析与创新。目前公开的国内外专利中与Hadoop技术相关的专利有11448篇,国内专利有4816篇,大多数申请均集中在2013年-2017年间。目前,Hadoop已经广泛应用于各个领域中,比如,医疗物联网,电力物联网,地理时空数据采集与预测,监控数据分析采集等,Hadoop为各个领域的数据挖掘提供了基础的数据分析支持,给数据赋予了全新的意义。

二、Hadoop专利技术概况

1.概况

为了获得用于Hadoop专利技术的相关情况,本文选择Google Patent系统,选择相关的关键词,如云计算、Hadoop分布式文件系统、数据集、键值对、半结构化数据、Hadoop、cloud computing、HDFS、clust+、mapper、unstructured data、MapReduce等关键词,检索Google Patent数据库来获得进行统计分析的专利样本。检索的截止日期为2018年1月24日,由于未申请提前公开的发明专利申请通常在申请日之后18个月才公开,由此导致部分的专利申请由于未公开而不再本次文献采集之列。

本章从Hadoop技术的分类、专利分布、主流技术发展等角度分析了Hadoop技术的技术演进过程以及Hadoop的主要技术特点。

2.专利技术分类

与Hadoop相关的技术相关的工具构成了Hadoop生态圈,各大工具从数据库、存储、管理、配置、一致性等方面对Hadoop进行了相关的改进。由于Hadoop技术的核心价值在于MapReduce和HDFS,这两项技术使得Hadoop相比与其他的数据存储分析系统具备了独特的优势。下面就这两方面进行重点分析。

(1)MapReduce

在Google Patent专利库中涉及到MapReduce的专利文件约8000篇,中国专利申请约3000篇。MapReduce是一种数据并行处理的编程模型,其将大规模的数据分析任务分发给拥有足够多机器的数据中心,可以在很短的时间内处理大规模数据集[1]。MapReduce相对于关系数据库的优势是非常明显的,它可以处理半结构化的数据,并仅在处理数据时才对数据进行解释,即是是冗余或是不完整的数据也可以获得可用的分析结果。MapReduce包括两个处理阶段,Map和Reduce。

Map(映射)是MapReduce中进行数据处理的数据准备阶段,其主要目的是进行数据的提取以及去除受损数据,为之后的数据优化做准备。在向中国专利局申请的专利中涉及到map函数的共2112篇,其主要改进点在于针对冗余数据的处理、负载均衡、聚类与属性约简。由于原始数据的特性不同,有近四分之一的专利申请将mapper针对其应用领域进行了定制化的改进,例如针对用电数据、行车记录数据、物联网、视频数据使用特殊的聚类方式以及针对各个领域的特殊性建立与领域相适应的聚类表。

图1 Hadoop技术演进年代图

Reduce(归约)的主要功能则在于将mapper的输出作为输入,进行数据的合并,最后将数据写入HDFS系统中。Reduce通常是基于数据分析的需求,进而获取与需求数据特征匹配的数据。在向中国专利局申请的专利中涉及到reduce函数共2774篇,其主要改进点在于数据的分类与聚类以及冗余、错误数据的清洗。由于Reduce函数是根据数据分析需求建立的,因此大约70%的专利均涉及了具体的数据类型的处理,例如针对人脸识别的图像数据处理,针对用电量流量流向的分析处理等等。

(2)HDFS

在全球专利库中涉及到HDFS的专利文件共4481篇,中国专利申请占2400项。HDFS作为Hadoop特有的分布式文件存储系统,其具备超大文件、流式数据访问、低时间延迟的数据访问、支持多用户写入修改文件、以及将一个数据集分化为多个小文件等特性[1]。目前来看,近一半的Hadoop技术专利申请中涉及到HDFS系统。

HDFS通常具有两类节点,namenode和datanode,分别在HDFS集群中担任管理者和工作者的角色。Namenode管理以及维护文件系统的目录,Dadanode则是文件系统的工作节点,定期向Namenode发送相应的块列表。在Google patent中涉及到这两类节点的专利共723篇,其多数改进在于故障修复,调度选择,提高传输效率,完整性验证等等。

HDFS作为一种文件存储系统,其演进基本遵循存储系统的改进特点,基本针对输入输出的改进、文件寻址索引、文件压缩分片等方面进行相应的改进,同时由于HDFS是一种典型的分布式结构,因此针对各个文件的传输流程、传输方式的优化也具备不错的应用前景。目前HDFS在文件系统以及文件传输的主流工具包括:flume、sqoop、distcp、avro、sequencefile、mapfile、fuse、blob、hbase等,在Google patent中涉及到这些工具的使用的中国专利文献占HDFS相关文件的39%左右。

三、Hadoop专利技术发展演进

从专利的角度进行分析,Hadoop的专利申请中的技术特征也基本遵循着Hadoop技术的发展历史路线,根据Google最初设计的MapReduce框架以及HDFS存储结构,针对资源/数据的在实际应用中的各个层面进行了相关的改进。作为一个共享存储和分析系统,针对该系统的改进主要还是在数据管理(Data Management)、数据获取(Data Access)、数据处理(Data Processing)和数据存储(Data Storage)这4个方面。图1是根据技术分类表以及技术演进方向做出的年代图。

由上述技术演进图可以看到,目前Hadoop生态圈中主流的工具YARN、Hive以及Flume都能在公开的专利申请中找到其演变来源。

从HadoopV2中的YARN工具的发展分析,可以看到MapReduce框架的演变。目前MapReduce已经从一个版本0.0的简单的集中式集群构架演变为版本2.0双层调度架构,将单一的Jobtracker分成三个不同的管理角色Resource Manager、Node Manager和Application Master,简化了Jobtracker的任务,提高了集群规模,并易于扩展。YARN的相关技术特征可以从亚马逊公司获得的两篇公开号分别为US8260840B1和US9210048B1授权专利中一窥一二,这两篇专利分别从MapReduce中集群节点的动态任务调配和通过网络流量调配节点之间的任务负载的角度去优化MapReduce的框架,以实现各个节点的负载均衡。尤其在US8260840B1中指出,采用一种动态决定集群的规模大小的框架,包括使用一部分节点作为核心节点参与任务的分配管理,另一部分节点作为辅助节点,可以进一步提高集群的运行速度。这两篇专利的技术特征不仅体现在了工具YARN中,还应用于亚马逊公司EC2云计算体系里,为亚马逊公司的发展带来了巨大的经济利益。现在YARN已经从MapReduce的结构中独立出来,作为一个独立的工具,使得MapReduce的工作更轻量。

Hive原本是Facebook构建在Hadoop的数据仓库框架,其设计目的是为了让Hadoop精通SQL技能[1],它目前成为了应用于各种数据分析场景中的一个通用的、可伸缩的数据平台。在Hive诞生之前,曾经就有两篇专利尝试将SQL技术与Hadoop技术结合起来,它们分别是Yahoo!公司的US7921416B2和US8150723B2,它们尝试将结构化,正式化的SQL语言翻译为可以被并行处理的语言,进而将SQL语言准确、冗余量少与Hadoop并行高速处理的特性,使得大量采用SQL搭建的数据库也可以享受分布式运算的优点。进一步,它们采取的方式是在SQL语言和可以被Hadoop处理的语言中建立一个新的综合了声明性和程序性的语言,以让其支持多个数据表之间的协同工作,而在这两篇专利中提到这种新型语言则演进成Hive中的HiveQL语言,辅助Hive外壳环境和HDFS的交互。

Flume是cloudera提供的一个高可用、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地[2]。关于日志数据收集早在2010年的专利US931772B2中提到,该授权专利就提出了需要对Hadoop集群中的各个节点进行日志分析与收集,以便于监控各个节点的状态。Cloudera公司的重点专利US8880592B2则进一步的在日志收集的基础上,提出了部分日志的采集与更新,作为Hadoop的后台进行集群节点监管的软件,其性能得到了进一步的提升。

四、总结

在Hadoop领域申请量排名靠前的国外主要申请人包括国家商业机器公司、威睿、雅虎、甲骨文、Cloudera等公司,主要涉及用于针对Hadoop系统的管理、配置、监管和接入的相关改进。国内主要申请人包括南京大学、国家电网、华中科技大学。和国外相比,中国在Hadoop相关技术的申请主要是针对特定领域使用Hadoop技术,并根据该领域的特性,对Hadoop技术进行定制化改进,其主要的考虑还是希望通过专利的方式对相关产品(比如南京大学的医药软件和国家电网的用电数据软件)进行保护。

本文对用于Hadoop专利技术进行分析和整理,除了以上内容,还关注了本领域的核心专利以及专利技术发展演进路线,得出的结论对于相关公司的专利布局具有一定的参考意义。

[1]Tom White.Hadoop权威指南(第3版)[M].清华大学出版社,2010:19-23,49-50.

[2]http://www.cnblogs.com/edisonchou/p/4445491.html,2017年7月24日访问.

猜你喜欢

专利技术日志专利申请
全新充电专利技术实现车队充电
一名老党员的工作日志
扶贫日志
镁冶炼专利技术研究
游学日志
专利申请审批流程图
专利申请三步曲
专利申请审批流程图
重复数据删除专利技术综述
一种基于粗集和SVM的Web日志挖掘模型