浅谈电子商务网站站内搜索引擎
2009-02-23赵园丁
赵园丁
摘要:对于电子商务网站,站内搜索结果的好坏直接决定着网站商品的销量。拥有高质量的站内搜索引擎对于在线销售收入是至关重要的。用户对站内搜索的要求越来越高,好的站内搜索引擎应该尽量满足准确、高速、方便和搜索智能化这些方面的要求。
关键词:电子商务;站内搜索;用户需求
1什么是站内搜索引擎
站内搜索是指对网站内部信息的精确检索和资源挖掘,它为用户提供全面、准确、快速的站内信息检索服务,是网站的核心竞争力之一。通俗地说,站内搜索引擎就是一个提供给网站用户的软件,方便他们搜索网站中的信息从而得到想要的内容。
2站内搜索引擎在电子商务网站中的重要地位
2.1站内搜索效果的好坏直接决定着网站商品的销量
对于电子商务网站,网站的每一条信息都具有商业价值,而有限的页面是不可能反映所有信息的价值的。站内搜索因此而成为电子商务网站发展的关键,是网站的核心服务之一。站内搜索效果的好坏可以直接决定网站商品的销量。2008年6月24日,中国互联网络信息中心(CNNIC)发布了《2008年中国网络购物调查研究报告》。报告中的调查数据显示(如图1),站内搜索对用户最重要,影响也最大,有43.8%的用户习惯通过站内搜索浏览商品。
如果消费者无法搜索到他们想要的商品,那么他们就会转移到其他网站。因此,拥有高质量的站内搜索引擎对于在线销售收入是至关重要的。
2.2站内搜索引擎是研究网站用户行为的一个有效工具
站内搜索引擎同时也是研究网站用户行为的一个有效工具。通过对网站用户搜索行为的分析,了解他们浏览商品的习惯对于网站有针对性地改进网页布局,进一步制定更为有效的网络营销策略以及改善网站服务质量都具有重要价值。
3站内搜索发展过程中存在的问题
随着使用互联网进行电子商务的普及程度的不断提高,搜索引擎已成为人们上网购买商品不可缺少的工具。用户对站内搜索引擎的精确度、速度和便利友好程度等的要求也越来越高。一个好的站内搜索应该尽量满足准确、高速、方便和搜索智能化这些方面的要求。而目前大部分站内搜索引擎,还存在种种的问题缺憾,需要进一步结合相关先进技术发展完善。
3.1用户输入与结果不相符
很多网站通过关键字匹配查询数据库来实现搜索,关键字所对应的数据库字段非常有限。但由于文化水平的差异,并不是所有的用户都能输入合适的关键词来进行搜索。他们往往输入的是一些简单的短语,甚至是一句话。关键词错误匹配的情况很多,用户看到的常常是“没有您所需要的搜索结果”或者很多无关结果。例如:输入“礼品行”进行搜索,可能会出现“礼品行业”、“礼品行李”、“礼品行云流水”等大量无关结果。不理想的原因之一是分词不准确。要提高站内搜索的水平,就得对用户的输入进行进一步处理,加入分词技术和智能搜索技术,才能使用户随心所欲地输入,从而提供网站的友好程度。
3.2搜索速度缓慢
很多网站让用户的搜索操作直接与数据库查询挂钩,这样使网站数据库的负荷很大。当数据库记录量比较大的时候,频繁地查询数据库,查询速度会很慢,进而影响网站的正常运转。尤其是同时有很多用户进行操作的时候,会导致信息塞车,这样用户经过一段时间等待仍然看不到结果,很快就会转移到其他网站选购商品。如何不让用户不耐烦是一个至关重要的问题,加入索引技术是解决这一问题的很重要的手段。
3.3关键词中的同音字和错别字得不到自动更正
在网站的站内搜索中输入“挪积压”进行搜索,如果得到的是与“诺基亚”相关的结果,并且提示你是不是要找“诺基亚”。这说明网站提供了搜索关键词的相关词的自动匹配,帮助用户在搜索的时候进行参考。因为已经预先估计到用户可能误拼这个词,因而避免了搜索不到任何结果的糟糕结局。但目前只有极少数的电子商务网站实现了这一智能化检索功能,大部分网站上输入这样的关键词,会返回“0”个结果,除非更正拼写,才会有所收获。这也是决定网站用户多少的一个因素。
3.4无法提供主题搜索和热门统计功能
如果搜索引擎根据用户的搜索要求,按照一个主题把与之相关的信息提供给用户,就可以让用户更加全面地了解他所想要的商品。这就需要优化电子商务网站信息之间的内部组织结构,从而方便用户的使用。另外,如果搜索引擎具备统计功能,可以统计一段时间内关键字的访问频度,列出热门关键字。就可以让用户知道热门商品,网站也能更好地把握其用户的需求,抓住市场动向,创造更多的财富。但是当前这些智能检索功能在大部分电子商务网站中都没有得以实现。
4站内搜索引擎发展所需的计算机技术
4.1中文分词技术
中文分词技术属于自然语言处理技术的范畴。从语言哲学的高度讲,“词”是从无意义的声音到有意义的“语音”的关键过度。计算机理解和处理自然语言,也得从这一步开始。众所周知,英文词与词之间是靠空格分隔开来,而中文词与词之间没有显性的分隔标记。例如对于英文句子I need a cup和与之相应的中文句子“我需要一个杯子”。计算机可以通过空格知道need是一个词,但是没有显性标志使它知道“需”和“要”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,也称为切词。“我需要一个杯子”这个句子经过分词后的结果是:我/需要/一个/杯子。
4.2索引技术
索引是数据库随机检索的常用手段,它实际上就是记录的关键字与其对应地址的对应表。建立索引的目的就是为了检索数据。如同书籍目录,其中指明了章节内容在正文中的页码,方便读者很快查找到内容。使用索引技术提高查询的速度原理也是一样,当数据库的容量很大时,如果要快速有效地获取信息,那么就需要使用特定的索引技术,避免信息塞车。
“倒排索引”是支持提高搜索引擎速度的核心技术之一。一个网页文件要建立倒排索引,需要先抽取它的纯文本内容,然后把文本中的一个个词切分开来,每个词在数据库里对应一条记录。在索引中词作为关键字,后面跟着文件的标识及其位置。例如有3个文件:文件1、文件2、文件3。它们的内容如下:文件1(词1,词2,词3)、文件2(词a,词b。词c)、文件3(词1,词a,词3)。建立的倒排索引就是:词1(文件1,文件3)、词2(文件1)、词3(文件1,文件3),词a(文件2,文件3)、词b(文件2)、词c(文件2)。
4.3智能检索技术
传统的检索由于存在查不全、查不准、检索质量不高的现象,早已不能满足用户的需求。智能检索技术利用了同音词典、同义词典来改善检索效果,比如用户查询“计算机”类商品,那么与“电脑”、“微机”相关的信息也能检索出来。进一步通过主题词典、上下位词典等还可以形成一个概念网络,在概念层面上辅助检索,对用户的检索进行相关性联想,给予用户智能知识提示线索,在交互过程中诱导用户表达出真正想要的东西。比如用户查询“胶片”,提示出与之相关的“相机”、“知名胶片品牌”、“胶片销售店铺”等。