基于自然语言检索的网页快照技术研究
2016-03-12海南大学李俊颉李为民
海南大学 李俊颉 李为民
基于自然语言检索的网页快照技术研究
海南大学 李俊颉 李为民
随着互联网技术的飞速发展,信息的发布与共享超越了时空的限制,互联网信息的极速发展给用户带来海量的信息资源的同时,也带来了寻找有效信息的困难.本文通过现有搜索引擎的比较研究,提出一套基于自然语言检索的网页快照技术.举例Google的PageRank算法优化网页排名、自然检索和网页快照技术相结合的检索方式,提高了用户检索体验。
搜索引擎;自然语言检索;网页快照;搜索引擎排序
1 自然语言检索研究
自然语言检索包括自然语言标引和自然语言提问查询。自然语言是以源文档中的内容作为源检索标示,之后会提供给用户接口使得用户可以使用自然语言作为检索内容并进行提问,完成检索。
自然语言的检索方法符合人们日常查找信息的思维模式。用户无需学习布尔检索式,抛开了有关关键词和词组的种种限制,不需牢记繁琐的检索规则,只要像平时提问一样即可。
目前在中国,网络信息资源总量呈爆炸式增长,且在全球信息检索中的比例不断提高,Google的图书数字化计划开展以来也使得数字化信息成为了愈来愈重要的资源形式。与此同时,用户的结构也发生了变化,越来越多的普通用户代替了原来专业技术用户,随之而来的检索需求也趋向多元化发展,目前,大多数用户即使不了解专业术语,也可以使用自然语言来对他们所需要的信息进行描述来达到二次检索的效果。自然语言相对于受控语言具有以下特点:
(1)符合用户思考习惯,不必使用特定语法;
(2)可以进行概念控制,提高查准率。
自然语言研究处理所使用的语言都是以自己的母语为主(大部分为英语)。虽然在研究中发现自然语言处理的有些思想理论可以脱离于具体语种,具有很大程度上的普适性,但在一些具体的研究项目中,许多处理方法都是与所使用的语言紧密相连的,例如英语与汉语的侧重点具有很大的差异。因此,自然语言检索的研究仍处于探索阶段,一些方法理论仅仅只适用于特殊设定的情况,同时,在汉语方面的研究还是要落后于国外,缺乏一些深层次的研究[1]。
2 基于Google Search的网页快照研究
2.1 网页快照技术的提出
在通过国内外搜索引擎对比分析之后发现,目前大多数Internet搜索引擎都主要是对Web信息资源进行抓取收集,并对用户提供检索服务这类模式,在日渐发展中,都在向综合搜索引擎靠拢。这些搜索引擎在提供与用户搜索内容相关联的网页内容之后,虽然根据一定的算法进行了排序工作,但搜索结果仍然鱼龙混杂,更为主观的决定还是在于用户本身,需要用户自己判定结果中那些是正确的,哪些是不正确的。而对于一些客观存在的,具有唯一答案的问题,在参杂了网民主观因素之后,也会出现不同的答案,这些带有主观色彩检索结果不但降低了检索问题所需要的准确性,而且耗费了很多用户的时间。下面举例说明(Baidu Search):
古诗词:在对关键字“床前明月光”进行检索时,除了出现“床前明月光,疑是地上霜”正确答案之外,在靠前的网页中还有“床前明月光,李白睡得香”、“床前明月光,苦闷心慌慌”、“床前明月光,李白打开窗”等一系列错误答案。
2.2 建筑物位置
在对关键词“我想知道海南大学图书馆具体位置”进行检索时,前10个检索结果都是与“海南大学图书馆简介”有关,在内容里并没有具体提供检索关键词的答案。
基于此,提出了一项基于自然语言检索的网页快照技术,通过实验可以发现,使用此项技术不但可以提高用户检索体验,而且检索速度加快了26.1%-32.2%。
网页快照技术:用户在搜索引擎检索框通过自然语言输入所需要的检索内容(例如:海南大学图书馆的具体位置;我需要海口白沙门公园的地图),搜索引擎使用数据和语言分析技术与用户的查询问题做精确匹配。并在检索答案返回时具有相应匹配结果的链接下方增设网页快照按钮,当用户移动光标置于此按钮时,会以文本的形式显示相应匹配答案。
3 网页快照技术的原理
3.1 网页快照数据库
在除普通搜索引擎服务器外,新增加网页快照数据库组,里面储存自然语言检索问题及相应答案。
在普通检索页面增设网页快照置位vn(用1和0表示),当页面检索网页快照置位为1时,提交后台审核,成功后将此页面放入网页快照数据库。用户在进行检索操作时,搜索引擎首先在网页快照数据库内根据语言分析技术匹配,若匹配成功,则在具有此检索的页面下方增设网页快照按钮,之后执行搜索引擎自身检索操作。
3.2 网页快照页面排序
引入网页快照因子vf,常常取值vf=0.05;网页快照置位vn(vn=0或1),带有网页快照的PageRank算法如下:
上述公式解释:
如果网T存在一个指向网页A的链接,则表明所有者认为A比较重要,从而把T的一部分重要性赋予A,这个重要性得分值为:其中PR(T)为T的PageRank值,L(T)为T的出链数;由于一些出链为0,也就是那些不连接人和其他网页的页面(孤立页面),因此增加了阻尼系数q,q一般取值q=0.85;考虑到存在网页快照按钮页面较为重要,因此引入vf、vn提高这类页面的PageRank值以增加排名。
4 总结
由于网页快照是存储在搜索引擎服务器中,所以查看网页快照的速度比直接访问网页要快。网页快照中,搜索的关键词用鲜艳的亮色显示,用户可以点击呈现亮色的关键词直接找到关键词的位置,以便于快速找到有效信息,提高搜索效率。使用基于自然语言检索的网页快照技术有以下特点:
(1)优点
1)网页快照技术已经得到谷歌,百度,必应等主流搜索引擎的支持,并且都支持自然语言检索,并且使用效果极其优秀。
2)超链技术是每一个网页必备的基础,所以与网页快照结合十分高效,敏捷。
3)用户只需将鼠标移至该图标(或者直接放在网页的超链上)。
并稍做停留,就会该出现网站的基于网页快照优化后的超链文本,它能使用户在进入最终网页之前能够预览到即将点进的搜索结果.从而给出准确的相关判断,节省用户搜索时间。
4)可以避免点击进入无关网页所浪费的时间,流量。
5)可以避免大量的广告,网页快照技术,只有关键的文本信息,不会显示任何无关信息
6)可以根据点击率和网页停留时间对网站进一步对搜索引擎排序算法进行优化
(2)缺点
目前,自然语言检索比起传统的检索方式需要更多的资源和优化,这个技术更像是一个专利,将它授权给搜索引擎公司会产生更高的价值,而且会损害到网站的流量和广告收入,不过用户体验会有极大的改善。
[1]黄敏.自然语言处理与信息检索[J].图书情报工作,2001,04:41-44+65.
李俊颉(1996—),男,大学本科,现就读于海南大学信息科学技术学院计算机科学与技术专业。