基于大数据和云盾技术的地方专利信息检索系统研究
2019-03-15刘锐
刘锐
摘要:知识产权服务中专利申请及相关的法律服务关系到我国自主知识产权法律效力的发展趋向,同时也是保障基础知识产权服务有效性的根本措施,只有这样,才能够让更多的创新技术人才在相应的专业领域内构建切实有效的发展规划,进而满足对专利申请、检索和法律诉讼等服务的高效化需求。随着大数据的快速发展以及云盾技术的广泛普及,信息增长是爆炸式的,专利信息作为规划经济发展和科技创新的重要依据,不仅是政府事业单位有效专利布局的措施,也是地方企事业单位的重要信息资源。构建地方专利大数据库、专利信息检索分析等多功能系统是扩大专利信息利用率,促进地方政策分析、技术预测和科技创新的发展重要举措。该文主要基于大数据和云盾技术,对凉山州地方专利信息检索系统进行简要分析。
关键词:专利信息;专利情报;信息服务;信息平台
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2019)02-0001-02
在专利信息检索系统的构建中,需要考虑较多因素,如信息资源、信息分析工具、服务机构等,本文运用已开发适用于早期阶段的“专利统计分析软件”(专利统计和分析软件,简称PSAS)及其在线分析工具(PIOL),基于大数据以及云盾技术,研究构建凉山州地方专利信息检索系统。在实际的专利系统研发和开发的过程中,由于整体的专利资源的限制,对整个的信息资源的有效性产生较大影响,且由于实际的专利利用的思维及主要的检索方式的不同,使得整体的专利信息服务系统因为地方资源有效性的差异而不同,因此在实际的专利系统结构及主要的思维进行构建的过程中,要对实际操作和应用进行相应分析,以實现对整个专利检索系统的有效性分析,从而体现专利检索系统中的知识产权结构及多样性利用及研发,使得专利检索系统的结构及相应的软件内容具有高效的分析性,且能够有效的促进区域专利信息检索高效化发展,且有助于保障专利布局、专利申请及相关数据的准确性及高效性。
1 地方专利信息检索系统建设思路
《四川省“十三五”知识产权保护和运用规划》(川府发〔2017〕13号)文,在知识产权综合服务工程中明确指出:“建设知识产权大数据库、知识产权信息检索、分析等多功能的知识产权公共服务平台”;在第四条重点领域中也提出:“推进专利检索数据库等专利基础数据资源开放平台建设”。由此可见,建设知识产权大数据库、知识产权信息检索、分析功能系统,已成为知识产权公共服务平台建设中不可或缺的重要组成部分。
凉山州地方专利服务平台,是基于大数据和云盾技术研发的专利信息检索分析及统计对比系统平台,帮助当地企业制定正确的市场发展战略,指导和推动企业科技研发,避免重复研发,专利侵权的有效监控和预警。系统平台具有地方特色,体现专利信息特点,能够满足广大网络用户对专利信息的需求,具有操作高效,操作方便,长期运行等特点。该系统包括专利信息检索,统计管理,对比分析等,实现数据网络化管理,以及与著录项目、权利要求书、全文PDF图像,可视化数据图表,有效日期,法律状态,机构属性、申请号等相关信息的统一管理。该系统可以根据用户的需要进行专利信息检索分析,也可以通过输入专利发明人,申请人和地区之间进行专利统计和专利数据比对。该系统的设计是专利信息利用的专属系统,其特点是建立本地专利大数据库,应用网络数据挖掘技术进行知识产权文档的自动分类、自动文摘的形成、检索结果的聚类和相关度排序等,利用智能代理技术加强用户的个性化检索,实现联合查询,多场组合检索,任意组合专利信息属性字段检索,以及从一个检索入口同时检索多个不同区域的资源库,由被动检索变成主动检索,达到精准检索、分析、统计、对比等多功能平台。同时在检索的过程中可以根据实际需求将检索的相关内容进行分析以及数据比对,并将专利所需要专利数据生产PDF文档进行下载导出打印,提高专利信息的利用率。
2 基于大数据和云盾技术的地方专利信息检索系统研究
2.1 系统架构
系统采用PHP+MYSQL+Nginx技术框架和基于云服务器的分布式部署实现负载均衡,并采用云盾安全保护技术,实现系统的安全稳定运行,基于PIOL后台系统,整个系统架构包括三个部分,即信息资源层,数据处理层和信息发布层,如图:信息资源层以原始专利数据的采集和存储为核心,数据处理层以信息组织,处理和分析为核心,利用PIOL等信息工具实现,信息检索结果是客户端的显示界面,是运用检索网页的前端设计和移动应用程序的开发来完成实现的,而且,基于大数据和云盾保护的首页功能板布局更为安全也易操作。
随着大数据的发展,从技术上讲,信息平台及其功能的实现已不再是问题,但为了设计一个简单高效的信息检索系统,技术选择和应用是一个必不可少的过程。基于系统实现技术的稳定性,考虑系统功能的扩展和集成,本文认为BOOTSTRAP前端开发工具的采用符合本地专利信息检索系统的技术要求,BOOTSTRAP由Twitter的设计师Mark Otto和Jacob Thornton联合开发,它是一个简单灵活的前端框架和基于HTML,CSS和JAVASCRIPT的交互式组件集,广泛应用于国内外各种信息系统的设计和开发[2],BOOTSTRAP能够更快,更灵活,更有效地设计前端框架和页面,并与后台进行交互,BOOTSTRAP一般具有以下技术特点:第一,应用方法易于理解,熟悉面向对象编程的程序员可以快速了解其技术结构、技术要素和其他技术要点,能够提高设计和开发效率;其次,源代码是开放的,在降低开发成本的同时,还可以通过与设计人员的交流和互动来分享开发经验;第三,它是跨平台的,不仅支持各种浏览器,还提供对智能手机和平板电脑的同步支持。
2.2 功能模块
用户管理主要支持平台用户登录和权限管理功能,实现不同类型用户登录,并根据级别分配权限,该模块集成了PIOL系统登录功能,并在平台主页中设置登录窗口,为管理员输入后台进行数据处理,发布和高级检索,并为普通用户登录进行简单检索和需求发布,并根据非登录用户,普通用户和管理员的用户身份,对平台各模块应用程序和操作进行权限分配。
信息检索是基于PIOL系统的背景,主要实现专利信息检索功能,考虑到数据传输的效率和服务器的承载能力,在平台页面的指定位置设置一个特殊的检索页面, 它用于平台限制用户按时间段,区域,专利类型,数据类型等手段检索本地专利信息,并以图形或报表的形式显示。大数据检索每个服务器,并在每个节点上的存储服务器中分析和排序数据信息,以获得在服务器前面排名的“相关性”。 而这些存储服务器用于并行分布式检索。检索结果在Index Repository的索引中,搜索引擎中的页面,用户请求的检索过程实际上是在索引存储库中搜索,将网页的内容与网页的反向排序索引中的索引同义词库组合在一起,页面标题和链接数据存储在用于广度优先搜索的一个索引中,并且web内容存储在用于低频长尾,个性化,深度优先搜索的另一索引中。
2.3 专利信息检索系统的检索过程
当用户提出检索请求并将关键词提交给检索代理时,检索代理将关键字发送给索引存储器,并在根据相关性再次对检索结果进行排序后,将搜索结果发送给检索代理,并呈现给用户检索的界面,检索能力和速度得到了很大提高。
搜索用户在搜索引擎输入搜索的关键词,提交请求,找到显示的匹配页面,搜索引擎会对搜索请求进行详细的分析,而搜索请求的详细分析主要是进行分词,分词主要是使用以下3种方法:
1) 基于字符串有三種匹配方式,前向最大匹配方法将索引问题从左到右划分为一些单词,反向最大匹配方法将索引问题从右到左划分为一些单词,最少细分是每个短语的细化,即使它是逐字出现的。对于整个信息工程的建设而言,对专利系统检索软件的系统分析及相应的分析内容进行分析,分析实际的专利信息内容。
2) 搜索引擎模拟人脑理解句子,进行分词,单词和表达进行整合便于理解,它的基本原理是在分词的同时通过语法和语义分析来解决分歧,分词通常是由分词子系统,语法子系统和语义子系统组成,并在主控制系统的配合下,语义子系统获得单词、句子等语义信息,可以模拟人类理解句子的方式。整体技术分析是对于各方面的信息内容进行分析,以实际操作和应用为基础,结合现有的信息内容进行有效的规划,实现对专利信息检索内容的有效性分析。
3) 相邻的单词出现的次数越多,中文分词就越可能作为一个单词彼此相邻。 在键入关键字时搜索用户,或多或少会出现很多结束词,例如“等”“的”,在分词中,通常会被删除。以实际的专利检索内容作为分析对象,实际操作和应用为基础,构建有效的专利信息内容,实现专利信息检索内容进行有效分析。
当搜索引擎收到搜索请求的详细分析时,它会匹配URL(重点是标题和摘要段),并且有数千个匹配的URL,如何以有序的方式展示?这要求搜索引擎根据URL的匹配程度进行排序。检索系统把网页的PageRank值与分词后的信息和链接网页的描述信息结合,计算检索结果排序的权重值,网页进行客观地排名,可以保证搜索结果在很大程度上与用户的查询一致[3]。PageRank的基本原理是:如果数据被其他页面多次指向,则表明该数据更重要或质量更高,除了考虑页面链接的数量之外,还会考虑链接页面本身的级别以及其他页面的前向链接数量。
3 结语
基于大数据和云盾技术的专利信息检索系统在实际生活中仍面临着巨大的挑战,在整个系统设计及研发的过程,以实际操作和应用为基础,构建切实有效的信息检索系统,有效规划整个专利信息检索过程,实现对于整个专利系统设计及研究的高效性分析,随着智能技术的运用,搜索引擎的使用将得到更好的改进,结合地方专利信息检索系统及相关核心技术的研发,通过不断的实践和研究,将搜索引擎与智能检索技术更好地结合起来, 实现具有新型检索模式的地方知识产权搜索引擎。
参考文献:
[1]王根. 基于地方知识产权战略的专利情报分析软件研究:以东莞市为例[J]. 情报科学,2011(9):1435-1440.
[2]焦玉英,索传军.基于“推”模式的网络信息服务及其相关技术研究[J].情报学报,2001(2):194-199.
[3]刘友华, 刘琳.论我国专利信息服务平台的构建[J].湖南科技大学学报:社会科学版,2012,15(5):103-106.