基于Lucene的Flash网络检索研究
2015-03-11仇亚东宋丽芳
仇亚东++宋丽芳
摘 要 垂直搜索引擎作为人们日常工作和学习获取信息资源的重要工具而存在。随着资源信息的急剧膨胀,垂直搜索引擎暴露出很多问题。提供真正智能化的根据用户兴趣而进行资源信息搜索的思路,并通过一个Flash垂直搜索引擎进行测试和实验,完善论文所得出的结论。
关键词 Flash;垂直搜索引擎;用户行为分析
中图分类号:TP393.09 文献标识码:B
文章编号:1671-489X(2015)02-0041-03
在当今社会,网络上包含了各种各样的网络资源,如文本、图片、音乐、视频、Flash等。Flash资源虽然作为重要的网络资源存在,但对它所做的研究并不多,远不如对其他几种资源所做的研究,而且相应的专业搜索研究也是凤毛麟角。因此,对Flash这种资源的准确搜索的研究已成为当前业界关注的重点。
如何让用户的搜索结果符合用户最想要的结果,是各大搜索引擎关注的重点,那么基于用户行为的搜索无疑已成为智能化搜索所必备的技术要求,而基于用户的行为分析的核心是如何了解用户,用户行为的含义表示,即用户的兴趣分析。那么,基于Flash的用户兴趣分析就成为智能化Flash专业搜索引擎所关注的核心。
下面就本研究展开讨论,在专业Flash搜索引擎中植入用户行为跟踪程序,根据用户的访问记录,过滤掉用户的无效访问,然后对用户兴趣点进行建模、归类及修改,并指导智能化Flash专业搜索引擎做出改进。
1 相关研究概述
在有效的用户行为数据挖掘分析的相关研究中,针对网络用户上网信息的采集、加工处理、过滤及分析,大多包括两种途径:用户的网络日志;网站用户踪迹跟踪。
1)在网络日志中,可获取记录用户对显示结果中的点击次数,记录用户的浏览时长,以及回访率、收藏率、点击率等。
2)网站用户踪迹跟踪,可获取用户IP、访问时间点以及上网用户的浏览操作等。
通过上述获取的信息量,可对用户的上网兴趣进行分析得出相应模型,进而了解用户特点,以此作为根据修改网站内容,改变网站风格,从而满足更多用户需求,提高网站访问效率。
2 用户行为分析及建模
在本文涉及的Flash搜索引擎中,搜索的基本条件有六个:名称、关键词、逻辑场景数、类别、交互性、视觉场景数。在这六个检索条件上可对用户行为进行跟踪,进而了解用户的兴趣点。
用户行为特征 对用户上网行为进行分析,可以得出用户上网大体有以下内容。
1)搜索关键词及选择条件:可以用数据库技术将用户的搜索信息存入数据库,其中可以记录网络用户的需求及兴趣点,也包含相关的搜索页面,从而对用户进行兴趣分类及建模。
2)网络日志:可通过网络技术,对用户的IP、访问点击数、访问浏览时长等进行进一步分析及过滤错误信息和数据,对建模数据进行整合分类。
3)除了上述显示信息外,还可对用户的注册信息进行处理,结合其访问内容、访问特点进而对用户的行为进行更精确的定位分类分析。
通过上述分析,相比于传统的搜索引擎的高匹配率,面向用户特性的个性化智能搜索引擎更符合用户需求及特点,从而受到更多关注度与使用率。为了能更好地阐述用户兴趣在搜索引擎的使用中的重要性,文中将着重分析其实现过程。
用户兴趣建模 首先,对用户行为的记录结果进行除杂过滤,包含对存入用户行为数据库中的没有进行搜索的用户进行删除处理,对有效数据进行统计处理,处理结果包含用户IP、用户职业、用户搜索条件、用户输入内容、用户访问频率。对每个用户用数组fre:{IP、职业、搜索条件、搜索信息、访问数}来表示。然后对访问统计数据进行建模,如图1所示。从图1可清楚地看出,当用户进行资源检索的时候,首先进行用户兴趣模式匹配,对适合用户的条件进行提取,并将这些条件加入当前检索条件中,从而把符合上述两种条件的搜索结果返回给用户,一方面满足用户当前的搜索条件,另一方面满足用户的个性特征。
3 项目实现
技术特点 文中使用的技术是成熟的搜索技术Lucene,
它是一个基于Java的全文信息检索包,但不是一个完整的搜索应用功能。目前Lucene是Apache Jakarta中的一个开源项目,也是目前最为流行的基于Java的开源全文检索工具包,有以下几个特点。
1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
2)在传统全文检索引擎倒排索引的基础上,实现分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
3)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
4)已经默认实现一套强大的查询引擎,用户无需自己编写代码即可使系统获得强大的查询能力。Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等。
项目实现
1)技术模块的实现。
①在本实例中,首先根据数据库中存放的Flash信息数据表的内容,在服务器端创建索引文件,创建索引的流程图如图2所示。创建好索引文件之后,搜索资源内容以倒排文档的形式存在索引文件中,提高资源的搜索速度。
②接着用户可以在网站中输入搜索的内容,这时利用Ajax技术将搜索的内容自动检索,搜索资源的系统流程图如图3所示。
2)用户兴趣模块的实现。这里将介绍如何实现将用户兴趣特性添加入搜索条件的功能。如用户A,职业是教师,曾对类别为课件项、复杂度为复杂交互感兴趣,从而将用户A的搜索条件{课件,复杂交互}添加到A的用户兴趣模式中。当用户A再次访问时,网站将“课件”“复杂交互”的权值提高,从而使其内容较前显示给用户。下面是具体实现过程。endprint
①增加用户搜索信息入库。可记录用户的访问信息,将用于跟踪用户和统计用户行为特证,包括用户IP、用户职业、用户搜索条件、用户输入内容、用户访问频率。每个用户都有自己维护的记录,用来统计用户的兴趣相关度和用户权值计算。
②用户信息匹配与提取用户信息,实现提取功能,注意进行用户兴趣改变度的计算和误差方差的计量。
③建立资源搜索,通过用户的信息兴趣建模得出用户兴趣向量,结合此次用户访问数据的相关性计量,最后得出搜索结果的排序方案,最终显示给用户的将是用户最希望得出的结果。
4 结论和未来工作
网络用户行为包含丰富的内容和信息,需要进行全方位的研究分析。文中只是涉及了基础信息,对大数据的有效性和实用性还有待验证和提高,比如用户的点击率、用户的访问时长也需要科学的研究和分析。这里应用了机器学习、数据库技术、搜索引擎Lucene等相关知识,实现了基本的大数据个性化搜索引擎,通过实验验证了搜索有效性,完善个人兴趣和搜索相关的基本内容。未来工作还很艰巨,如用户行为有效性分析,用户数据可靠性分析,以及价值型研究和网站合理性的评价性研究等。
参考文献
[1]张骞.传统搜索引擎与智能搜索引擎比较研究[D].郑州:郑州大学,2012.
[2]张兴华.智能搜索引擎的机理、实现技术及发展趋势[J].现代情报,2003(12):66-68,70.
[3]刘崇学.基于智能搜索引擎的数字图书馆个性化服务研究[J].现代情报,2006(11):16-18.
[4]闫翔,陈远.中文智能搜索引擎现状探析[J].情报科学,2002(12):1326-1328.
[5]张帆,林建.智能搜索引擎信息过滤机制研究[J].图书与情报,2007(4):52-56.
[6]付志超.基于Map/Reduce的分布式智能搜索引擎框架研究[D].武汉:武汉理工大学,2008.
[7]韩婷.基于本体论的智能搜索引擎模型的研究[D].南宁:广西大学,2005.
[8]陈治平.智能搜索引擎理论与应用研究[D].长沙:湖南大学,2003.
[9]乐小虬.非结构化网络空间信息智能搜索与服务研究[D].北京:中国科学院研究生院(遥感应用研究所),2006.
[10]赵文华.基于用户的个性化搜索引擎研究[D].北京:首都师范大学,2008.
[11]刘妮娜.Web数据挖掘和个性化搜索引擎研究[D].杭州:浙江大学,2005.
[12]袁柳,张龙波.个性化搜索中的用户特征模型研究[J].计算机工程与应用,2011(15):19-24.
[13]王钦为.面向用户的个性化搜索引擎算法研究与系统设计[D].广州:华南理工大学,2012.
[14]李强.基于本体论的个性化和社会化元搜索引擎的研究[D].杭州:浙江大学,2006.endprint