面向制造业的知识搜索引擎设计
2013-12-29陈晓丽杨欣蓉等
摘要:该文结合制造业知识的特点,介绍了基于Lucene的面向制造业知识搜索引擎基本架构。从查准率和搜索时间上与通用搜索引擎对具有制造业代表的关键词进行搜索的比较,证明面向制造业知识搜索引擎可以提高制造业信息数据的利用效率。
关键词:知识搜索引擎;Lucene;制造业
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)16-3882-03
1 概述
据相关统计,制造业的信息化水平远远落后于生产规模的发展。传统制造业企业的数据每年以150%的速度增长,其中80%以上的数据以文件、邮件、图片等非结构化的数据存放。传统制造业企业经过多年运作,积累了大量企业内部的规章制度、项目文档、操作规程等的经验和知识,这些知识没有统一的组织和管理,散落在企业的各个角落无法被互联网搜索利用。迅速地检索和利用企业迅猛增长且不能被互联网搜索引擎检索到的企业数据成为目前制造业企业的迫切需求。
2 知识搜索引擎研究现状
2.1国外研究成果
2.2国内研究成果
国内的许多学者对相关知识搜索引擎实例进行比较。如:王春晓等人对百度“知道”、新浪“知识人”、雅虎“知识堂”三个知识搜索引擎的类目设置、页面设置、搜索方式、提问方式、搜索结果和相关协议等方面进行比较分析,并提出了完善知识搜索引擎的相关建议。
此外,相关学者还探索了知识搜索引擎在一些领域的运用。如:周春对知识搜索引擎在教学中的应用进行了展望;巫喜红把知识搜索引擎应用在设计类课程的教学中,取得了良好的效果。
3 面向制造业知识搜索引擎
面向制造业的搜索引擎的系统架构和运行方式吸收了信息检索系统设计中许多有价值的经验,也针对万维网数据和用户的特点进行了许多修改,如下面所示的搜索引擎系统架构。其核心的文档处理和查询处理过程与传统信息检索系统的运行原理基本类似,但其所处理的数据对象即万维网数据的繁杂特性决定了搜索引擎系统必须进行系统结构的调整,以适应处理制造业数据和用户查询的需要。
1)Crawler爬虫抓取
面向制造业的知识搜索引擎派出一个能够在制造企业内网上抓文件的程序,这个程序通常称之为Crawler。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。搜索引擎会跟踪网页中的链接,访问更多的制造业网页,这个过程就叫爬行,这些新的网址会被存入数据库等待抓取。
2)抽取器
面向制造业的知识搜索引擎它先对爬虫所抓取的文件进行结构化数据抽取关键词,然后对抽取的数据进行知识分类,并把数据分类的结果放进知识库里。
3)索引器
面向制造业的知识搜索引擎它主要把抽取器的知识库里数据分解、分析,并以巨大表格的形式把中文分词存入索引数据库。
4)检索器
面向制造业的知识搜索引擎主要是基于lucene检索,它是性能的java全文检索工具包,使用的是倒排文件索引结构,同时对索引数据库的数据进行一定的用户行为分析,进行高效的检索,受到了手机移动终端与浏览器的亲睐,应用十分广泛。
5)采集器
面向制造业的知识搜索引擎主要采集制造企业的资源库,包括一些企业的技术档案库、科技成果库、数字资源库。并且该搜索引擎也收集了一些个人文档。该采集器同样也有许多的系统支持如:协同办公系统、邮件系统工作票系统等等。功能十分的强大与全面,与其他系统的兼容性十分的好。
4 搜索性能比较
实验结果表明,面向制造业的知识搜索引擎具有明显的主题倾向性,结果的查准率优于通用搜索引擎。但是系统在搜索速度上远不如商业搜索引擎。
5 结束语
本文设计的面向制造业知识搜索引擎是优于通用搜索引擎的,它基本满足了对制造业数据、信息搜索的需求。该搜索引擎可以帮助地制造业产业实现对相关信息的检索,对制造业信息化发展有很大的帮助作用
注释:
[1] 图1中浅色图形表示激活的属性;中灰色的图形表示它们与激活的属性有直接关系;深灰色表示未激活的属性。
参考文献:
[1] 李永春,丁华福.Lucene 的全文检索的研究与应用[J].计算机技术与发展,2010,20(2):12-15.
[2] 彭陶,马张华.Web2.0环境下的知识搜索引擎发展研究[J].图书馆学研究,2011(11).
[3] 王春晓.知识搜索引擎比较分析[J].图书馆学研究,2009(1):47.
[4] 周锦程.基于Lucene 的全文检索系统的研究与实现[J].计算机技术与发展,2011,21(3):67-71.
[5] 任惠静.基于Lucene的面向主题搜索引擎的索引技术的研究[J].电脑知识与技术,2010(4).
[6] 孙建.基于Lucene的知识搜索引擎的设计与实现[J].安徽电气工程职业技术学院学报,2011(01).
[7] 王文钧,李巍.垂直搜索引擎的现状与发展探究[J].情报科学,2010(3).
[8] Malaysia.Development of Search Engines using Lucene: An ExperienceMasnizah Mohd
[9] Antonopoulou E, Karetsos ST, Maliappis M, Sideridis ABWeb and mobile technologies in a prototype DSS for major field crops[J].Compute Electron Agric 2010;70:292-301.
[10] Hamdi MS. SOMSE.a semantic map based meta-search engine for the purpose of web information customization[J].Appl Soft Compute ,2011;11(1):1310-21.