APP下载

基于文本挖掘的视频编解码领域专利分析方法

2012-06-29雷,夏

电视技术 2012年2期
关键词:编解码能耗专利

于 雷,夏 鹏

(国家知识产权局专利局 专利审查协作北京中心,北京 100190)

随着科技的发展,世界范围内的技术竞争愈发激烈,专利作为最主要的科技文献,在技术竞争中扮演的角色越来越重,因此专利战略研究显得尤为重要。有研究表明一个优质的专利分析可以减少近60%的研发(R&D)时间,同时节约近40%的研发成本[1]。然而,专利数量浩如烟海,因此如何从如此海量的文献中提取信息,完成可视化的专利分析,就变得尤为重要。本文将从实际应用的角度,来讨论视频编解码领域的专利数据的概念提取、分类,以及挖掘模型建立、评估,以期能对相关领域研究人员有所帮助。

1 概念提取以及分类

本文中的概念提取主要采用高级语义技术以及自然语言处理技术(NLP)[2]。高级语义学实际上是由本生词典、近义词、库以及模板构成的,其最为核心的一点在于其本生词等构成的词典,词典中反映的信息越多,那么由其构成的概念提取模板质量也就越高,如图1所示,为视频编解码领域构建的本生词典、近义词、库以及模板[3]。

概念提取模版构建完成后即可进行概念提取,同时对概念进行分类,此处的分类可以使一个标识关键主题、关键知识点等需要提取的分类,实际上可以由概念、类型以及规则构成,如图2所示,为视频编解码领域的部分概念提取以及分类,需要注意的是这个过程是一个交互的过程,以保证概念提取和分类的准确性和适用性。

2 生成模型以及模型准确度评估

反复调整概念、分类以后,即可生成概念提取模型以及分类模型,评估流程如图3所示,其中由于本次选取的专利样本为6000份,为了节省时间,从中随即抽样50%作为模型生成样本,将没有使用概念提取以及分类的模型以及使用概念提取以及分类的模型,同样进行C5.0决策树分析,比对分析结果如图4所示。

可见,使用概念提取的模型(线a)要比不使用概念提取的模型(线b)的准确率有较大的提高。如果需要定量分析,可以通过同一输入字段进行分析的方式,比较两者之间的正确率以及一致性,来得到定量结果。

3 文本挖掘以及结果分析

当模型通过评估后,即可用于对6000篇视频编解码专利文献样本进行概念提取和分类挖掘(见图5),并以广电网、电信网、计算机网三网应用的角度,观察视频编解码技术在上述三方面的应用,同时考虑上述专利在国家中的分布情况。如图6所示,可以发现,在三网应用中视频编解码技术分布最多的是电视网,位于800的数量级,而电信网和计算机网则像差不大,基本位于200这一个数量级。

令人意外的是,这一领域(在电视网中应用视频编解码技术)最热门的专利布局国家是印度(国家代码:IN),大约有600篇相关专利文献进入印度布局,占整个专利样本的1/10,其次是美国(国家代码:US),大约位于400这一数量级,中国、日本、韩国大概位于200这一数量级(国家代码:CN,JP,KR)。

进一步观察视频编解码在电视网中应用的两大专利布局国家——印度与美国(见图7),可以发现在这方面,同时进入美国与印度的专利文献有200~300篇,这实际上给出了从中挖掘重要专利的一个思路。而在整个三网领域视频编码技术综合布局热门前三位分别是印度、美国、日本,比利时位于第四位,同时可以看到在美、日、欧三方面均有400和200篇不等量的专利同时布局在了印度(如图8所示)。

此外,从能耗、价格、解码质量的角度考虑,可以发现,能耗因素实际上已经远远超过了价格因素,是最为热门的研发方向(见图9)。特别是在移动网络领域中,降低视频编解码的能耗是重中之重,其次是电视网络领域,最后是计算机网络领域。此外,有近20篇左右的专利文献可以在降低能耗的同时兼顾价格,因此其中可能存在价值比较高的专利。

4 结论

可以初步得出一些定性的结论:印度作为一个人口众多、影视产业发达、国家发展速度快的新兴国家,其在视频编解码领域的市场被大多数国际以及公司所看好,是产业布局应该首要考虑的国家,特别是中国公司,在印度的布局数量还是比较少的;能耗因素是视频编解码产业的研发重点,产品价格并不是研发应该考虑的首要因素,特别是在移动视频编解码领域,研发节能环保的新技术将是绝对值得投资的一个方向。

[1]XU Yuanhao.Apply text mining in analysis of patent document[C]//Proc.IEEE 10th International Conference on CAID&CD.[S.l.]:IEEE Press,2009:2350-2352.

[2]AKAM N,AL-DABASS D.Semantic mining for language text analysis[C]//Second Asia International Conference on AICMS.[S.l.]:IEEE Press,2008:415-420.

[3]KNIME-Professional Open-Source Software[EB/OL].[2012-05-01].http://www.knime.org.

猜你喜欢

编解码能耗专利
专利
120t转炉降低工序能耗生产实践
能耗双控下,涨价潮再度来袭!
探讨如何设计零能耗住宅
1553B总线控制器编解码设计
为多重编解码世界做好准备
大型民机试飞遥测视频编解码方法研究
发明与专利
日本先进的“零能耗住宅”
2G/3G网络IP化语音编解码协商策略部署研究