APP下载

基于物联网技术的搜索引擎技术研究

2018-07-28刘丹英于光伟

科技创新与应用 2018年20期
关键词:搜索引擎物联网技术

刘丹英 于光伟

摘 要:近年来,随着物联网在各个领域的不断应用,使搜索引擎技术具备了极为广阔的发展前景,针对搜索引擎在我国的应用现状,现将物联网技术应用到搜索引擎软件当中,以此提高搜索引擎软件的速度,使搜索引擎能够为人们提供更好的信息搜索服务。

关键词:物联网;搜索引擎;软件模块;技术;设计

中图分类号:TP391.3 文献标志码:A 文章编号:2095-2945(2018)20-0143-02

Abstract: In recent years, with the continuous application of the Internet of things (IoT) in various fields, search engine technology has a very broad development prospects. In view of the current situation of search engine application in China, the Internet of things technology is now applied to search engine software to improve the speed of search engine software, so that search engines can provide people with better information search services.

Keywords: Internet of things (IoT); search engine; software module; technology; design

引言

随着物联网技术的不断发展,将信息技术和物联网技术进行融合,将使其在各个领域中发挥更大的作用。其主要包括检索器、搜索器、用户接口及索引器四个组成部分。搜索引擎在物联网中发挥着极为重要的作用,人们能够通过搜索引擎在物联网中搜索到自己所需的信息,同时还能利用搜索引擎进行漫游,可以说,搜索引擎极大程度地满足了人们对信息的需求。将物联网技术应用到搜索引擎技术当中去,能够在很大程度上提高搜索引擎的性能,使搜索引擎在物联网中进行更加优质的信息搜索服务。因此,本文便对基于物联网技术的搜索引擎技术进行深入的研究,以此开发出更加智能化的搜索引擎。

1 基于物联网技术的搜索引擎软件模块的设计

在基于物联网技术的搜索引擎软件中,其共包括四个组成模块,这些模块分别是网页抓取模块、内容索引模块、内容提取模块以及内容显示模块,以下便对这四个组成模块进行深入的研究。

1.1 网页抓取模块的设计

网页抓取模块的功能在于其能够对用户所指定的站点实施网页抓取,然后将所抓取的网页存储到用户计算机的数据库当中。而在本文中所提到的基于物联网技术的搜索引擎软件模块能够从腾讯、搜狐、凤凰及网易等大型网站中对相關网页进行抓取,其只需要将这些大型网站中的页面URL当作种子URL,并对这些大网站中的网页URL所具备的格式进行分析,然后对网络爬虫在网页分析及抓取时所产生的行为进行相应的控制,并对能够进行爬取的网页URL格式和对能够进入到等待爬取的URL队列所具备的URL格式进行限定。而要想使网络爬虫的爬取速度得到相应提高,就必须要对URL分配策略进行相应的改善,以确保网络爬虫所具备的并发线程数量能够增多,同时,还可以对Robot文件访问进行限制,以达到提高网络爬虫爬取网页效率的目的。

1.2 内容提取模块的设计

网页内容的提取模块功能在于其能够从用户计算机存储的网页中根据特定的提取规则来对用户的所需信息进行提取,然后将这些提取的信息按照相应的格式存储至数据库当中。其在分析目标网页过程中,会对相应的信息抽取规则进行制定,以定位网页中的相关内容,同时对网页中所包含的文本内容进行抽取。在网页信息词库的构建中,利用分词器来对用户所需的提取信息进行解析,然后将这些提取到的信息写入到相应的词库文件当中,从而使这些提取出的网页信息能够转化为结构化信息,最后再由数据库对这些结构化信息进行存储。

1.3 内容索引模块的设计

在基于物联网技术的搜索引擎软件中,对于内容索引模块的设计,主要是通过Luence索引工具来根据数据库中所存储的结构化信息来对索引文件进行建立的,在成功建立索引文件后,再将这些索引文件分别存储至磁盘当中。这样,当用户需要对相应的内容进行索引查询时,其只需要在搜索引擎中输入相应的查询条件,即可对磁盘中的任意索引文件实施查询,而且搜索引擎软件还会根据用户输入的查询条件的满足程度,按照相应的顺序分别反馈给用户,从而使用户能够对所有符合查询条件的索引文件进行一目了然地筛选。

1.4 内容显示模块的设计

在基于物联网技术的搜索引擎软件中,内容显示模块的设计也是一大设计要点,该模块以Jsp技术为核心,在向用户展示界面时,是以Web形式实现的。用户在对某些信息进行搜索时,需要在搜索引擎软件的搜索栏界面输入相应的关键词,此时,搜索引擎软件便会根据用户搜索的词,从本地数据库中对能够与关键词相匹配的网页进行查询,在查询到所有与关键词相匹配的网页后,搜索引擎软件会根据这些网页的匹配程度,并按照相应的排序规则将这些网页显示到界面当中,用户只需要点击这些网页信息,便可迅速切换到该网页的详细内容,进而帮助用户快速找出网页内容。

2 基于物联网技术的搜索引擎技术的具体设计

2.1 网页抓取

在基于物联网技术的搜索引擎软件设计中,网页抓取技术实质上便是一个能够对网页进行自动提取的网络爬虫程序,其能够从物联网中对网页进行下载,可以说,该程序也是搜索引擎软件的核心所在。在以往的网络爬虫中,其是从单独或多个初始网页的URL做为起始点,以得到这些初始网页中的URL格式,其在对网页进行抓取时,需要在当前界面中对新的URL进行不断地抽取,然后将其放入到队列当中,当满足停止条件时才会停止。对于聚焦爬虫的工作流程来说,其是比较复杂的,其依据网页分析算法来对网页中和主题没有关系的链接进行过滤,并对有用链接进行保留,同时将其置于待抓取URL队列当中。此时,其便会按照特定的搜索策略在URL队列中对需要进一步抓取的网页URL进行抓取,然后对上述过程进行不断的重复,直至满足系统的停止条件时才停取抓取。网页抓取模块利用网络爬虫从各个网页中对用户的所需页面URL进行爬取。网络爬虫在被激活时,我们需要在URL请求队列中加入URL种子,种子应为具备代表性的页面URL,如凤凰、搜狐、腾讯等,并通过分析这些具备代表性的页面URL格式,以获得与上述页面相符的URL格式,然后将这些URL格式放入到请求队列当中。

2.2 网页信息抽取

在搜索引擎软件中的网页信息抽取模块中,其主要是根据相应的抽取规则来对本地计算机中存储的网页进行相关信息的抽取,然后将这些抽取到的用户所需信息按照相应的格式存储至数据库当中。其在对网页信息进行抽取时,需要对存储网页的本地文件夹进行遍历搜索,遍历的方法可以采用深度优先遍历或广度优先遍历等。当遍历到该文件中包含有需要抓取的网页时,则会通过Jsoup的使用来对网页中的作者、标题、正文及时间进行定向抓取,然后将这些抓取到的内容按照.txt格式存储至用户所指定的文件夹当中。对于这些抓取到的内容,如网页中的标题、发布时间、作者、链接地址等还会存储到数据库中的new表相应列当中。

2.3 内容索引

在内容索引时,搜索引擎会根据数据库中所存储的结构化信息,通过Luence索引工具来对相应的索引文件进行构建,在索引文件构建好以后会将其存储至磁盘当中,然后依据用户的查询条件来对相应的索引文件进行排序,然后将排序结果反馈给用户。

综上所述,本文根据物联网技术中所生成的海量数据,提出一种基于物联网技术的搜索引擎,该搜索引擎在实际应用过程中具备以下功能:其一,通过扩展网络爬虫来提高网页抓取速度;其二,利用Jsoup网页解析工具来对目标网页中的具体内容进行提取,然后将这些提取到的内容存储到数据库当中;其三,利用Luence检索工具实现用户对本地数据库中相关信息的索引,并采用Jsp来对信息进行过滤及展示;其四,通过MYSQL数据库在搜索引擎中的应用,以使搜索成本降低,并且MYSQL数据库还能有效减轻结果集的负荷,使数据的传输速度加快;其五,搜索引擎软件的界面美观简便。通过对该搜索引擎软件进行测试,测试结果证明,基于物联网技术的搜索引擎在信息搜索过程中具备稳定、高效的优势,同时具备良好的UI交互设计功能。

参考文献:

[1]李彦辰,艾庆忠,王少非.基于Redis的分布式搜索引擎研究[J].软件导刊,2018,17(03):201-204.

[2]郭文俊,乔世东.基于多Agent的搜索引擎技术的研究[J].山西大同大学学报(自然科学版),2017,33(03):4-6.

[3]杨宇,杜文斌,周亚军.计算机搜索引擎智能化技术研究[J].电脑迷,2017(07):20.

[4]蔣继娅,刘彤,刘宇.基于搜索引擎优化技术与模板引擎技术的网站优化策略[J].情报理论与实践,2010(05):99-102.

[5]许瑞.搜索引擎技术的发展现状与前景[J].中国新技术新产品,2017(02):20-21.

[6]杨子墨.智能技术在搜索引擎中的应用[J].科技创新与应用,2016(35):98.

[7]周先军,曹基军,周瑾,等.基于关键词提炼的搜索引擎优化方案[J].科技创新与应用,2016(12):78-79.

猜你喜欢

搜索引擎物联网技术
Chrome 99 Canary恢复可移除预置搜索引擎选项
世界表情符号日
基于高职院校物联网技术应用人才培养的思考分析
探讨电力系统中配网自动化技术
移动应用系统开发
北京市中小企业优化升级
中国或成“物联网”领军者
基于Lucene搜索引擎的研究
搜索引擎,不止有百度与谷歌