基于WEB的钢铁行业信息搜索引擎技术
2018-01-04胡玲李鹏赵德平
胡玲 李鹏 赵德平
摘要:随着Internet深入发展,Web产生的信息迅速增长,使用专业搜索引擎进行信息查询已经成为搜索引擎的发展趋势。当前,钢铁行业作为我国传统的制造业信息化程度发展也十分迅速,人们对钢铁行业的信息需求也越来越多,但是目前还没有专门针对钢铁行业信息的专业的搜索引擎。本文根据现实需求提出了针对钢铁行业信息的专业搜索引擎设计方法。重点论述了专业搜索引擎如何进行信息采集,并提出了一种符合实际的针对钢铁行业信息的专业搜索引擎的设计方案。
关键词:专业搜索;搜索引擎;钢铁行业;信息;
中图分类号:TP311.52 文献标识码 A 文章编号:1009-3044(2018)28-0224-03
当前我国钢铁企业和钢铁交易企业以及相关的第三方构建起来的钢铁信息平台已经达到300多家,国内的钢铁信息平台注册用户达到了64.8万,钢铁电子商务钢材销售量占重点企业总销售量的22.3%,占重点企业其余销售量(钢材直供量除外)的比例为35.1%[1-4]。但是这些建立起来的钢铁行业的网站和平台大多数都没有建立起来一条能够进行综合信息的有效查询。同时通过通用的搜索引擎进行信息查询返回的数据信息非常庞大,有许多的无用和不相关的信息。想要获取钢铁行业的信息仍然非常困难。
随着互联网信息的快速增长以及信息的多方面發展,通用的搜索引擎需要收集的网页数量越来越大。这种情况使得通用搜索引擎的工作量急剧增大,而且越来越不能满足专业用户的查询需求。对于专业用户来说,他们迫切需要一个能够对数据进行细致分类、精确及时、全面更新的面向专业的搜索引擎,来获得相关专业的资源信息。专业搜索引擎面向某个特定专业领域,这样就能实现对该领域信息的全面收集和及时更新。通过建立面向钢铁行业信息搜索引擎可以为广大的钢铁商业从业者、科研人员、管理部门和钢铁行业市场提供准确快速的钢铁商业信息,必将能进一步推动我国钢铁行业的信息化和互联网化,同时构建钢铁行业的电子商务市场。当前的搜索引擎的相关技术已发展到了第四代,但是当前的搜索引擎关键技术大多是面向通用搜索引擎的,专业信息的检索还没有非常好的解决方法。本文在论述专业搜索引擎的基础上,着重讨论了专业信息的收集策略,提出了一个比较适合钢铁行业的专业搜索引擎设计方案。
1钢铁行业信息的内容及特点
1.1 信息内容
钢铁行业信息内容包括了各个地区的钢铁企业的信息、产品信息、生产产量和销售信息等概况,同时还包括上游的一些钢铁矿石是相关信息,同时也还包括一些法律法规等以文件形式出现的内容,信息的主要表现形式有文本,表格和文献等不同类型,也是所有与钢铁行业有关的综合体。
1.2 钢铁行业信息的特点
1)内容复杂,范围广阔。钢铁行业信息涉及方方面面,地理范围广阔,内容形式多种多样,格式不统一,极其复杂。
2)新技术新产品多,更新快。随着钢铁行业的新技术的快速投入使用,产生很多新的信息。造成网络信息更新严重滞后,更新不及时等问题。
3)利用广泛、能重复应用。各种信息资源不仅可以给各级政府提供信息支持,也能够为相关的钢铁企业和矿产企业提供信息服务,为本领域的专业学者等研究人员提供最新的行业动态,也能够给广大的普通网络用户提供更好的信息参考。
4)信息收集困难、获取代价高。钢铁行业的信息主要以人工或者半人工的方式进行收集,因此速度较慢,更新也慢,同时需要投入的人力物力比较多,这样的成本高、代价大。
2 专业搜索引擎的发展概况
传统的搜索引擎是互联网上信息查询重要工具。当前互联网的信息量快速增长,同时信息向多维度发展,人们使用搜索引擎开始从怎样查询到需要的信息,转换成怎样才能快速、准确地找到有用信息上来。传统的搜索引擎已经很难满足专业用户的需求,主要体现在如下两个方面:
1)由于社会分工越来越细,不同专业领域的信息也越来越具体,信息的维度也越来越高。互联网用户在查询信息时,通常需要得到的是一个专业领域内的信息,而不是把所有不相关领域信息一起呈现给用户,让用户自己去分辨信息的领域。
2)传统搜索引擎是无目的性地全互联网的去收集信息,这样对系统的软件扩张性和硬件的稳定性都是巨大的考验。
面对这样的情况,专业搜索引擎就应运而生并成为发展的新趋势,同时也可以叫作主题搜索引擎、专用搜索引擎或者垂直搜索引擎。专用搜索引擎只是针对某个领域进行信息采集,这样就可以加快索引的更新周期,通常1~2天能更新全部信息,甚至根据有效的算法可以在几个小时内完成重要信息的快速更新。
当前专业搜索引擎正处于蓬勃发展的时期,已经有推出专业的搜索引擎平台。Google公司的学术搜索,NEC公司的CiteSeer等都是使用比较广泛的科学论文搜索平台。国内的专业搜索引擎也有建设,赛迪公司的“IT罗盘”、中搜公司也推出了行业搜索平台和房地产行业的“房老大”等。
但是目前面对钢铁行业的上下游产业和全领域的信息搜索引擎还没有建立;因此急需建立起这样一个专业搜索引擎平台来实现对钢铁行业的信息全面处理,提升整个行业的信息化水平,融入互联网发展浪潮中,提升行业的整体竞争力。
3钢铁行业专业搜索引擎的设计
钢铁行业专业搜索引擎应该提供与钢铁行业相关的信息而不是收集所有互联网的网页信息,因此需要制定与传统搜索引擎有区别的信息采集技术才能满足用户的需求。在系统设计和实现的时候,主要考虑的就是专业信息采集方法,这个是专业搜索引擎和传统搜索引擎最重要的区别[5]。专业搜索引擎的信息采集是通过专业的智能爬虫(ProfessionalRobotCrawler)来完成,要完成这个工作也需要多种的辅助算法。本文介绍钢铁行业专业搜索引擎的总体设计方案,其中重点说明ProfessionalRobotCrawler的实现。在钢铁行业的专业搜索引擎中需要采用的是特征集首页关联、链接长度比较和预测页面内容等技术,实现对钢铁行业的专业信息采集。在网页内容信息提取方面,本文提出了钢铁行业专业词典用于对行业特征信息的提取,同时还并提出一个基于网页架构的简洁高效的计算权值的方法。
3.1 系统架构
同传统搜索引擎一样,专业搜索引擎也是四部分组成的:信息收集模块(Robot, Crawler)、索引模块( Indexer)、检索模块(Retriever)和用户接口模块((Query)[6]。信息收集模块负责从互联网上收集网页,对所有抓取的网页进行判断筛选并进行标记;索引模块是从收集到的信息中抽取出索引项,用于表示文档以及生成文档库的索引表;检索模块的功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;用户接口模块是提供用户查询的界面,并根据用户的检索关键词,从信息库中检索出相关信息返回给用户[7-8]。本文提出的钢铁行业的专业搜索引擎总体架构如图1所示。
3. 2 关键技术
1)专业信息抓取技术
特征集首页关联算法可以使用是因为绝大部分网站中的首个网页基本都包括了该网站的大部分内容,是网站的一个索引,对于大型的互联网网站更是如此。
专业的信息抓取技术就是首先构建出钢铁行业的专业字典。在需要访问一个全新站点的时候,对该站点首页用钢铁行业专业字典的专业词进行检索匹配。如果首页中没有相关的匹配词,就说明该网站不是钢铁行业的有关站点。系统就把该网站网址列入ProfessionalRobotCrawler禁止访问的URL网址列表中,如果下次再访问到该站点的网址就直接抛弃不再进行访问抓取。因为特征集的首页关联方法能够把非钢铁行业领域的网页直接排除在访问范围外,极大地提高了ProfessionalRobotCrawler的网页抓取速度和准确率。
2)预测页面内容技术
ProfessionalRobotCrawler对一个页面进行下载的时候,不是先把整个页面都下载下来,而是先把网页中的HTML中的HRAD部分下载下来,返回出网页头部信息,通过该信息进行分析做出下列判断:1)该网页是否是与钢铁行业相关的;2)网页的最近的更新时间。如果网页和钢铁行业没有关系,就不处理抛弃,进入到下一个网址继续处理;如果网页上次下载以后到现在为止没有进行更新,也不需要再进行下载。这样系统就只会收集到与钢铁行业相关的同时也是上一次下载以后没有更新的网页来建立起索引。
3)Bloom过滤器去重
ProfessionalRobotCrawler执行过程中,每次抓取到的一个链接都要判别它的重复性,当这个链接不是重复,进行下一步的解析操作,如果是重复,就丢弃这个链接,这样就能够减少重复的解析操作,加快系统的处理速度。本文就是使用Bloom过滤器对相关的链接进行去重操作。目前国内外也有许多研究者人员把这项技术应用到网页去重中[9-12]。Bloom过滤器是由Bloom在1970年提出的一种多Hash函数映射的快速查找算法,通常应用在一些需要快速判断某个元素是否属于集合,这个算法有较好的时间和空间效率。该算法的描述如下:假设使用三个Hash函数对每个元素进行映射,这样每个元素对应HashTable中的三个位置,
如果要查找[W]是否在HashTable中则仍旧利用三个哈希函数对其进行映射,当且仅当三个哈希函数映射的位置的标记都为1的时候,才表明[W]存在于集合中;但是由于HashTable中的每一个位由所有映射元素共享,[W]的三个映射位置可能分别被其他元素标记[13],具体过程如图2所示。Bloom过滤器算法实现有许多开源代码,本文參考部分开源代码利用Java语言实现。当然Bloom过滤器也存在一些缺点,比如具有一定的误判概率和删除困难。不过在处理海量的网页抓取过程,这样的误判概率是完全在接受范围之内。
4)专业特征提取技术
目前搜索引擎技术和文本挖掘技术都是按照首先把需要处理的文本进行特征化,就使用能够表达文本基本含义的文本特征集合或者向量来表示原来文本的意思。而特征提取技术就是使用向量空间模型处理信息查询的关键技术。
本文提出的系统是为查询钢铁行业的专业信息进行设计的,系统处理的目标就是一个专业领域的技术文档,网页内容中的特征项就是钢铁行业的专业词语,在进行特征提取的时候就不需要对普通词语进行分词和词频统计。因此为了能够显著提供系统运行效率和分词准确性,本系统就不再使用通用大型分词算法对词语进行分词处理,而提出了专业词典的概念来处理。系统针对专业搜索引擎平台而构建出钢铁行业领域的专业词典,就可以利用较少的专业词汇全面地覆盖钢铁行业信息,这样词汇量就会大量减少,可以显著降低算法的时间和空间复杂度;系统在进行特征提取时,只会去匹配专业字典中有的词汇,这样就会大大降低向量空间的维度,从而能够在保证准确提取特征值的情况下大幅度提高系统的整体运行效率。
本文采取两个方法来进行专业词典的更新:一个是根据钢铁行业的专家或者系统管理员不定期将钢铁行业的中出现的新词语加入专业词典中;二是建立一个全新的词典库,每次遇到一个新的词语如果不在词典库中,就将这个词收录到新词典库中,同时记录日期和赋予相应权值,在一定的时间范围内如果一个新词的权值达到了设定的阈值,就把这个词加入专业词典中,如果在设定的时间范围内权值没有任何改变或者变动很小(没有达到预定的阈值),就把这个词从新词库中删除掉,这样就达到了更新专业词典的目的。
4系统实现及结果分析
1)系统实现
本文系统算法使用Java 实现,版本为jdk1.8.0,操作系统为Windows 10 64位专业版,集成开发环境为MyEclipse 2016。系统实现主要包和类如图3所示。其中,顶层的Crawler、Indexer、Retriever、Query分别用于专业信息抓取和提取、建立倒排索引、建立检索和用户查询等核心功能。第二层次的ParaNounRcg用于进行专业词汇识别,ResultOps用于对专业词典识别结果进行进一步的分析处理,AnsjOps用于导入和更新与钢铁行业相关自定义词典,这样就可以显著提高专业词汇的识别率。
2)结果分析
由于目前没有专门针对钢铁行业的搜索引擎,其他行业的专业搜索引擎也无法提供对钢铁行业信息搜索结果的验证。因此,本文系统选择与常见的中文综合搜索引擎进行测试比较。
本文系统的专业搜索引擎是配备了钢铁行业的专业字典,在查全率方面具有显著的提高。在随机选择1000个钢铁行业的关键词搜索的情况下,与Google、百度等中文搜索引擎检索结果的数量相比,平均高出约23.32%左右。测试结果如图4所示。
本文系统利用Ajax技术能够分析用户行为,进而掌握用户的搜索意图,自动进行钢铁行业专业词汇的匹配,同时利用Cookie 和 Session 技术对用户进行标识并存放历史搜索记录,最终达到快速搜索匹配的效果。通过对1000个钢铁行业的随机关键词进行搜索,分别以搜索结果前15、30为例,能找到目标信息占搜索次数的比例为评价标准,本文系统的查准率明显优于其他传统搜索18.72%左右。测试结果如图5所示。
因此,经过测试比较结果显示,本文系统在查全率和查准率等方面超过了传统的综合搜索引擎平均水平,在分类准确率及查全率方面明显优于传统综合搜索引擎。
5 结束语
通过提升企业信息化水平,走信息化道路是我国钢铁行业的必然选择。本文利用专业搜索引擎的信息收集方案,通过使用专业信息抓取、预测页面内容、Bloom过滤器去重和专业特征提取等关键技术结合起来,设计出了一个面向钢铁行业的专业搜索引擎,通过系统的实验和测试,本文系统搜索结果明显优于传统的综合搜索引擎。下一步还需要完成的工作主要有:一是建立面向钢铁行业的图片、音频和视频的信息搜索。二是对
多个主题词的专用搜索引擎的实现。当然,本文还是存在一定局限性,一些算法是通过开源代码实现,还有许多工作要在后續工作陆续展开。
参考文献:
[1] 袁久柱.钢铁行业信息化建设现状及前景展望[J].河北冶金,2017(07).
[2] 漆永新.钢铁信息化现状及发展趋势分析[J].中国制造业信息化.2011(16).
[3] 谢世诚.钢铁行业信息化现状及发展趋势[J].中国信息界制造,2011(1).
[4] 闫祥岭.“互联网+钢铁”成为中国钢铁产业发展新趋势.建筑时报,2015年12月21日.
[5] 陈俊源,北大宏博.SQL SERVER 2000中文版建置与管理手册[M].北京:.北京大学出版社, 2001.
[6] GUO A,YANG T.Research and improvement of featurewords weight based on TFIDF algorithm[C] IEEE.Pro-ceedings of IEEE Information Technology,Networking,Electronic and Automation Control Conference. New York:IEEE Pubhcafions,2016:415-419.
【通联编辑:光文玲】