面向区域农业信息的垂直搜索引擎研究
2018-05-14李果
李果
摘 要:区域农业信息对于特定区域的关切人群具有重要价值。提出了一种面向区域农业信息的垂直搜索引擎设计方法,从信息采集、信息组织和信息服务3个角度,提升用户获取区域农业信息的体验。
关键词:区域信息;垂直搜索引擎;农业信息
文章编号:1004-7026(2018)13-0061-01 中国图书分类号:TP391.3 文献标志码:A
搜索引擎是一种应对信息过载的有效方式。但通用搜索引擎在面对狭小细分领域信息检索的时候,信息收集不充分、索引数据库不完备,从而导致该领域信息查全率和查准率低的问题。因此,垂直搜索引擎应运而生。垂直搜索引擎是指应用于搜索某一专业领域(比如科技论文、汽车、房产等)或者某一类信息(比如地图、音乐等)的专业搜索引擎[1],也被称为专题或专门搜索引擎,是搜索引擎的细分和延伸。垂直搜索引擎并不追求大而全,强调的是专而精,可以在特定领域信息检索中获得较好的效果。
区域农业信息指通过各种渠道传播的以地方区域为范围的涉农相关信息,这些信息对于特定区域关切的人来说往往关乎切身利益,具有重要价值。每天都有大量的各类信息从各个地方产生,但受限于主流媒体有限的版面和时长,只有极少数信息能被选择报道传播,许多区域信息被埋没而失去價值。通过建立面向区域农业信息的垂直搜索引擎,快速、精准地满足相关用户个性化的信息需求,下文将就几个关键技术点进行阐述。
1 区域农业信息搜索基本流程
从信息管理角度看,要实现区域信息垂直搜索引擎的设计。首先需要根据设定区域从互联网各种渠道采集相关信息,并建立基本的信息库。接着对信息库中的信息进行标注,从每一条信息中提取若干主题特征。此外为了搜索结果的有效性,还应计算信息的权重。最后考虑到区域信息规模往往不大,可以采用关键词匹配的方式响应用户搜索,同时采用top-N推荐的方式提升用户使用体验。
2 区域农业信息基础库建设
垂直搜索设计的首要问题是基础信息库的建设,对于区域信息,主要有三类:一、稳定的信息,产生时间早且不容易发生变化,比如某地的历史、地理信息、风俗习惯等;二、较稳定信息,信息变化不频繁但一定周期会发生更新,比如某地的火车时刻表、农业经营场所信息等;三、实时信息,这类信息变化快、数量大,比如某地的天气信息、某地的交通路况信息、惠农政策信息等。针对不同类别信息需要建立相应的信息库。
3 区域农业信息采集
对于不同类别信息,信息采集方式不一样。对于稳定的信息,主要是做好前期工作,信息来源不仅仅是互联网,还可以是线下信源,传统方志、实地考察等,确保权威、准确。对于较稳定的信息,则注意信息抓取的周期,尽量响应信息更新。对于实时信息,则需要耗费较多计算资源,密切抓取信息源实时更新。互联网信息来源多样,在有限资源的前提下,考虑到信息分布呈现的马太效应[3],尽可能聚焦核心信息源信息进行采集可以提升采集效率。
4 区域农业信息组织
对于已建立好的信息库,要实现搜索的响应功能,需要做好两个工作。一是对信息进行标注,提取信息的主题特征,可通过中文分词进行涉农词汇识别,去除无意义的停用词,提取有意义的涉农词语标签。二是计算信息的权重值,主要从时间角度和影响力角度进行衡量,从时间角度看通常较新的信息具有更大的价值,从影响力角度看主要考虑信息来源和信息引用及互动情况。比如权威信息源发布的信息往往重要性高于普通网民发布的信息,又比如被广泛转载和评论的信息往往具有较高的价值。
5 区域农业信息搜索
区域涉农信息规模通常不大,在信息呈现上,可以以两种方式:一是提供搜索入口,用户提交关键词,然后直接通过关键词匹配和近似词匹配的方式,按照权重和时间顺序给出搜索结果,单纯依赖关键词匹配可能会降低查全率,在信息组织阶段可以将信息进行基本类别的划分,当关键词匹配结果不理想的情况下,可以反馈同类别信息;二是采用topN推荐的方式,列出特定时间段重要性较高的信息,满足用户多样性和新颖度的需求。
6 结束语
相比通用综合搜索引擎大而全的方式,垂直搜素引擎强调专而精,在特定领域信息搜索中具有更高的查准率。区域农业信息对于某一地方关切的用户具有重要价值,通过垂直搜索引擎采集和挖掘本地信息便具有重要意义。
参考文献:
[1]王文钧,李巍.垂直搜索引擎的现状与发展探究[J].情报科学,2010,28(03):477-480.
[2]杨韬,邹永利.中文商业网站信息资源的集中与分散规律探究[J].现代情报,2007(09):53-56.