大数据时代网络信息检索技术研究
2020-06-29黄少年
黄少年
摘 要:大数据时代,人们如何才能从海量的大数据信息中获得个人所需要的信息,已经成为科技信息人员当前研究的重要内容。本文主要介绍了目前互联网环境下的信息检索技术,同时对未来的信息检索技术进行展望。
关键词:信息检索;检索技术;检索技巧
1.引言
随着互联网的发展,人类社会已进入信息时代。在现实生活中,人们已经从以前的通过报纸、广播、电视获取信息转变成主要从网络获取信息资源。这大大改变了人们的生活习惯,通过网络获取信息资源,不仅提高了人们获得信息的速度同时也提高了信息的有效性和及时性。本本文主要介绍了目前互联网环境下的信息检索技术,同时对未来的信息检索技术进行展望。
信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。在互联网高速发达的现代社会,几乎每个人都在有意无意的用到信息检索技术。因此,如何才能在网络大环境下提高信息资源检索的质量和效率就显得非常重要。
2.网络信息资源检索技术
网络信息检索工具,是指利用超文本技术在 internet上建立的一种提供网络上信息资源导航、检索服务的专用网站服务器。它的工作原理可以概括为:通过自动索引程序 robot(或人工)来广泛收集网络信息资源数据,经过一系列的判断、选择、标引、加工、分类、组织等处理后形成供目录索引及检索界面。快速准确高效地获取网络信息资源,是信息提供者或获取者追求的目标;而合理利用网络信息检索工具,则是实现其目标的有效途径。而网络信息检索技术主要有以下几种类型:
2.1全文搜索引擎
全文搜索引擎的主要代表有国内的百度和国外的Google。它主要是使用关键词进行信息的检索。用户只要把想要查找的关键词或短语输入查询栏中,然后再点击 Search(查询 )即可,这种搜索技术速度快,返回结果数量也很大。因此,用户必须从搜索结果进行筛选出有用信息。
2.2目录搜索引擎
目录搜索引擎与全文搜索引擎的工作方式不同,它是由人工对web站点和文档进行评价、分类并给出简要描述。用户可以通过浏览目录中的分类来查询web信息。当目录中包含太多的分类和链接时,目录本身也变得不便于浏览。最典型的就是Yahoo搜索。由于加入了人的智能,该类搜索引擎所得信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。
2.3多元搜索引擎
多元搜索引擎没有自己的数据资源库,而是将用户的查询请求同时向多个搜索引擎递交,在将返回的结果进行重复排除、重新排序等处理后,作为自己的结果返回给用户。服务方式为面向网页的全文检索。这类搜索引擎的优点是返回结果的信息量更大、更全,缺点是不能充分使用搜索引擎的功能,用户需要做更多的筛选。
3.提高网络信息资源检索效率的技巧
由于互联网的信息资源量非常之巨大,如果只是简单的对网络进行搜索,那么得出的数据有可能不到1%的量是我们所需要的。因此,如何提高搜索质量和搜索效率已经成为一个非常值得关注的课题。
3.1使用合适的搜索引擎
网络上流行着这么一句话:外事问google,内事问百度。也许并不是那么准确,但是还是有一定的道理的,每个搜索引擎都有各自的特点与侧重点。因此,我们在搜索信息的时候可以根据情况来选择不同的搜索引擎。简单来说,如果搜索的是外文类的信息,那我们使用goolge可能搜索出来的信息会比较适合要求,而且也会更齐全。如果是搜索中文类的信息,那么选择百度会更合适。
3.2使用正确的关键词
关键词也叫搜索词,搜索引擎能根据这些关键词寻找用户所需资源的地址,然后根据一定的规则反馈给用户包含此关键字词信息的所有网址和指向这些网址的链接。当我们搜索的关键是确切的时候,我们就应该输入确切的关键词,这样就可以保证输出结果的正确性和合理性。而且如果我们要查找的信息关键词不太确定或者比较模糊的时候,我们可以用比较接近的关键词或者同义词来查找,现代搜索引擎技术都具有联想功能,因此大多时候都可以联想出我们要查看的正确关键词,从而找出需要的信息。当然如果有需要的话可以多用几个关键词来查找,但是需要提醒读者的是关键词之间最好用空格来隔开,当然这种方法产生的结果也会比较多,无用无效信息也就会更多,需要我们做更多的筛选。
3.3巧用字段检索
字段检索是传统数据库中常用的检索手段之一,用户可以指定检索一个特定的字段,如标题字段、作者字段、年份字段、单位字段等。在网络检索引擎中常使用的字段检索有标题、网址、图象等,其中最常用的是标题字段检索。每个主页都有一个反映其主要内容的标题,因而使用标题字段检索准确率较高,如果在标题字段用词组或短语检索,其效果更好。如果需要图象文件,可以用图象字段检索。由于各个检索引擎在提供这类字段检索时所用的检索格式不同,用户在使用时要事先阅读有关的检索规则。
3.4其他检索技巧
除了以上介绍的这些常用检索技巧之外,还有其他技巧可以帮助我们提高搜索的效率。例如,当我们要搜索某些特定的文件类型的时候,我们可以使用filetype这个英文单词协助搜索。比如要搜索包含关键词为“北海职业学院2020年招生简章”的word文档时。我们可以在搜索引擎的搜索栏里输入“filetype:doc 北海职业学院2020年招生简章”,然后就可以搜索出我们需要的word文档了。又或者是当我们只希望在某个指定的网站搜索信息时,我们可以用site这个单词来辅助查找。例如,要从北海职业学官网上查找2020年招生信息时,我们可以用以下的格式来搜索,”site:www.bhzyxy.net 2020年招生简章”。当然还有其他技巧,需要读者进行更多深入学习研究。
4.信息检索技术的展望
4.1智能化搜索
未来的搜索应该朝着智能化的方式发展。它除了能提供传统的快速检索、相关度排序等功能外,还能提供用户兴趣自动识别、内容的语义理解、智能化信息过滤和推送等功能。网络信息检索智能化,志在消除人与计算机之间的矛盾,努力使计算机人性化,理解用户的语言及需求。
4.2移动搜索
随着智能手机的快速发展,基于手机的移动设备搜索日益流行,但移动设备有很大的局限性,比如屏幕太小,可显示的区域不多,计算资源能力有限,打开网页速度很慢,手机输入繁琐等问题都需要解决。目前,随着智能手机的快速普及,移动搜索一定会更加快速的发展,所以移动搜索的市场占有率会逐步上升。
4.3实时搜索
随着微博的个人媒体平台兴起,对搜索引擎的实时性要求日益增高,我想这也是搜索时引擎未来的一个发展方向。实时搜索最突出的特点是时效性强,越来越多的突发事件首次发布在微博上,实时搜索核心强调的就是“快”,用户发布的信息第一时间能被搜索引擎搜索到。
4.4其他技术
社会在发展,科技也在不断的进步,随着科技研究人员的不断努力研究探索,未来肯定会产生更多更好用的搜索技术。
5. 结语
大数据时代的到来,网络信息資源在不断的增加,我们从网络上获取的信息资源也越来越多。除了提高网络信息检索技术之外,用户也要掌握网络信息检索的技巧,不断提高自身的检索能力,才能从网络中更好更快地的检索到自己所需要的信息,使互联网更好为我们服务。
参考文献:
[1]汪楠. 信息检索技术(第二版)[M].清华大学出版社. 2015
[2] 彭奇志.信息检索与利用)[M]..中国轻工业出版社.2013
[3]林群霞. 网络信息检索及其前沿技术的发展[J].惠州学院学报.2009