基于检索意图识别的信息检索专利技术综述
2016-08-16王志超李银松
王志超 李银松
(国家知识产权局专利局专利审查协作河南中心,河南 郑州 450002)
基于检索意图识别的信息检索专利技术综述
王志超李银松
(国家知识产权局专利局专利审查协作河南中心,河南郑州450002)
信息检索是对大规模电子文本和其他人类语言数据进行表示、搜索和处理的技术。随着信息检索技术的发展,为了使检索结果更加符合用户要求,基于检索意图识别的信息检索技术迅速发展。本文首先介绍信息检索和检索意图识别的基本概念,然后从专利技术的角度介绍基于检索意图识别的信息检索技术的发展路线,并介绍基于检索意图识别的信息检索技术重要申请人的技术路线,最后,总结现有的基于检索意图识别的信息检索技术的整体发展趋势和专利文献在其中所起的作用。
信息检索;检索意图;多维度
1 引言
信息检索(Information Retrieval,IR)被认为是对大规模电子文本和其他人类语言数据进行表示、搜索和处理的技术。信息检索系统和服务现在已经非常普遍了,成千上万的人每天都在使用它们来方便的进行商务、教育和娱乐。Google、Bing、Yahoo、百度等Web搜索引擎,是目前为止最普遍和大量使用的信息检索服务形式,提供获取最新技术信息、搜索人和组织、总结新闻和事件意见简化比较购物的途径[1]。
信息检索通常包括:Web搜索、其他搜索应用、其他信息搜索应用等。通常的Web搜索形式是使用Web搜索引擎,通过输入简单的查询,得到问题的答案。对于其他搜索应用,两个常用的实例就是桌面搜索和文件系统搜索。与Web搜索引擎相比,桌面搜索引擎系统需要对文件格式和创建时间更加了解。其他搜索应用还包括企业级信息搜索系统、数字图书馆等其他专业信息检索系统。其他信息搜索应用通常处理的问题还包括存储、处理和检索人类语言数据等各种相互关联的问题[1],具体包括:文档路由、过滤和选择性传播、文本聚类和分类、摘要、信息提取、话题检索与跟踪、专家搜索、问答、多媒体信息检索等。
大部分信息检索系统都可以表示为一个共同的基础组织结构,如图1所示。首先用户产生一个信息需求,并基于该需求,用户在信息检索系统中输入一个查询,由搜索引擎根据该查询在数据库中进行检索,然后对检索结果进行过滤、排序等处理生成检索结果,最后将检索结果返回给用户。
图1 信息检索系统
2 检索意图识别的基本概念
检索意图(Retrieval Intention)是检索中包含的用户信息需求、查询目标、查询动机等。
根据用户输入的检索信息,自动识别出其检索意图,返回与其信息需求更相关的信息,成为有效把握用户需求、提高搜索引擎检索质量的途径之一。
对于检索意图的分类,学术界通常使用Broder等人提出的分类标准[2]:
(1)导航类(Navigational):又叫主页查找类。这类检索意图是为了访问某个特定的网站,例如某企业、组织的主页;
(2)信息类(Informational):又叫话题相关类。这类检索意图是为了获取例如如何改变阅读器背景颜色等会在多个网页上存在的信息;
(3)事务类(Transactional):又叫服务查找类。这类检索意图是为了进行一些基于Web的活动,例如:观看视频、网上购物等。
Rose等人[3]在Border等人的基础上,又提出了更加细致的分类层次,除了导航类和信息类外,又增加了:
①指导类(Directed):用户想知道关于某个话题的特定信息,其中包括:确定的(Closed)和开放的(Open);
②无指导类(Undirected):用户想知道关于一个话题的任何信息;
③建议(Advice):用户想要得到关于某个主题的建议或攻略等,例如:春节海南旅行攻略;
④位置(Locate):用户想知道在哪里能够得到现实世界中的某种服务或产品;
⑤下载(Download);
⑥娱乐(Entertainment);
⑦交互(Interact);
⑧获取(Obtain)。
基于检索意图识别的信息检索的关键技术通常包括[4]:特征提取(确定特征词汇、词项之间的关系、词性、相关数据的统计信息等)和数据集的构造或获取(用于分类的数据集通常包括训练接和测试集,通常可以使用搜索引擎的日志)。
3 基于检索意图识别的信息检索技术发展路线
一直以来,学界认为传统信息检索的核心宗旨为:用户内在的信息需求促使其采用相应的信息检索系统并产生相应检索行为,从而将用户查询中所包含的信息需求狭义地界定为信息类信息,即主题类查询。
1987年12月2日,日本的日立有限公司的申请(JPH01145721 A,19890607)首次通过评价检索意图来对搜索结果排序,公开了一种通过检索关键词计算得到的拟合优度(goodness-of-fit)这一测度来数值化检索意图的方法。直到2000年出现韩国的申请之前,在基于检索意图的信息检索领域的专利全部集中在日本,其中以FUJI XEROX CO LTD为首,包括12件专利申请,MATSUSHITA ELECTRIC IND CO LTD、NIPPON TELEGRAPH& TELEPHONE、YAHOO JAPAN CORP、YAHOO KK次之,分别有8件专利申请。此时的基于检索意图的信息检索还遵循着传统的信息检索的定义,通过用户输入的关键词进行主题类查询。
自2002年开始,学术界认为用户执行检索不只是想获取信息类信息,并通过对用户查询及AltaVista日志进行分析将用户查询意图分为三类,即信息类(I)、导航类(N)和事务类(T)。自此,人们开始从多个角度研究基于检索意图识别的信息检索技术。
2003年7月2日,日本的OKI ELECTRIC IND CO LTD的申请(JP2003000190556,20030702)不仅通过关键词来获得用户的检索意图,同时加入关键词的属性,来共同表示检索意图。即,检索意图识别中的一个关键技术——特征提取——开始备受关注,多角度、多维度的特征提取方法激增。
中国专利CN101782909A公开了一种基于用户对网页搜索和操作网页的记录来计算用户后续需求意向的方法。通过记录用户对网页的点击数、点击速率、网页速度、浏览时长、浏览次数和链接文字的操作,计算出用户对搜索结果的喜好分值和后续需求意向。当用户点击一个超链接时,搜索引擎要实时的计算一个喜好分值,并将链接上的文字和检索请求相联系起来,可认为是相关联。
中国专利CN102880723A公开了一种识别用户检索意图的搜索方法和系统。计算检索请求的意图特征相似度、实体词关联度、以及句法格式相似度三种度量,根据上述计算的三种度量确定用户检索意图,既考虑到检索词汇与意图特征库的相似度,又考虑到实体词的特殊作用以及整体的检索句法结构,从局部和整体上对检索关键字做意图识别,为搜索引擎提供尽可能多的信息支持,同时不完全依赖于线上搜索引擎的结果信息,更易于实现。
4 基于检索意图识别的信息检索技术重要申请人的技术路线
基于检索意图识别的信息检索技术专利申请,中国申请以阿里巴巴集团控股有限公司为首,有73件专利申请,百度在线网络技术(北京)有限公司次之,有43件专利申请;国外申请以阿里巴巴(ALIBABA GROUP HOLDING)为首,有19件专利申请,腾讯(TENCENT)次之,有18件专利申请。但阿里巴巴的申请的申请日都集中在2010年以后。在2010年以前,都集中在日本和美国,其中日本以FUJI XEROX CO LTD为主。
以下主要分析阿里巴巴在中国申请的关于检索意图识别方法的技术路线。
2009年9月4日,阿里巴巴在中国提交的第一件关于检索意图识别的信息检索方法(CN200910171083),主要以查询关键字的语言特点和历史用户行为作为特征,对用户意图进行分析,以语义检索为主,不再是传统信息检索中简单的文字匹配。
2010年4月30日,提交的CN201010160535提出了一种基于垂直搜索的查询方法,其体现了在搜索领域新出现的一个搜索技术——垂直搜索,是用这项新的技术,结合协同过滤的思想,在用户推荐领域获得用户的查询意图。
2010年12月31日,提交的CN201010618555提出了一种通过建立非意图词集的方式,预先确定多种推荐方式,其中第一预定推荐方式为基于知识库的推荐方式和/或基于会话相关性的推荐方式,从而解决了没有明确搜索意图的用户推荐搜索关键词时推荐效果不佳,造成搜索引擎服务器系统资源浪费的问题。
2011年9月1日,提交的CN201110256639使用两级查询,进一步提高检索精度。
2011年11月15日,提交的CN201110361975在原来只进行单词这一层面分析的基础上,使用词的匹配规则,进一步挖掘用户的搜索意图。
2012年1月17日,提交的CN201210015340通过输入的查询字和选取的类目,确定查询词与类目名称之间的上下位关系,根据确定的上下位关系确定扩展查询词,从而加大匹配到用户查询意图的可能性。且在2012年的多项申请中,都致力于根据用户输入的查询词,进行查询词扩展,找到更能符合用户查询意图的关键词。
2013年的申请主要结合用户的搜索行为制定个性化的搜索方案,从而输出合理的符合某一用户的搜索意图的结果。
5 结论
随着计算机技术的迅猛发展及用户需求的急剧增加,对信息检索的精度和速度的要求越来越高。为了得到更加贴近用户意图的检索结果,用户意图识别技术必将得到更多重视。与其他机器学习方法的发展历程一样,基于用户检索意图的信息检索正在由单维度向多维度发展,由底层的数据匹配向高层的语义匹配发展。
由于发明成果在专利文献中的公开早于其他公开媒介,且体现了行业和技术的发展趋势及商业价值。所以,有效利用专利文献更有利于提高研究效率、减少研究投入并提高研究水平。通过专利文献中技术的发展脉络,能够及时发现现有技术的空白点及改进点,有助于研究者及时调整技术研究及企业发展方向及战略,研发出更加符合用户需求的产品。
[1]Stegan Büttcher,Charles L.A.Clarke,Gordon V.Cormack著,陈健,黄晋等译,信息检索:实现和评价搜索引擎,机械工业出版社,北京,2011.12.
[2]Andrei Broder.A taxonomy of web search[C].SIGIRForum. New York,N Y,USA:ACM Press,2002:3-10.
[3]Daniel E,Rose,Danny Levinson.U nderstandinguser goals in web search[C].WWW’04:Proceedingsof the 13th international conference on World WideWeb.New York,N Y,U SA:ACM Press,2004:13-19.
[4]张森,王斌.Web检索查询意图分类技术综述.中文信息学报.2008,22(4):75-82.
Patent technical review of information retrieval based on retrieval intention
Wang ZhichaoLi Yinsong
(Patent Examination Cooperation Henan Center of the Patent Office,SIPO,Zhengzhou Henan 450002)
Information retrieval is the technology to represent,search and process large-scale electronic text and other human language data.With the development of the information retrieval technology,in order to make the result more in line with the user’s requirements,the technology of information retrieval based on retrieval intention develops rapidly.First,we introduce the basic concepts of information retrieval and retrieval intention recognition.Then,we introduce the development routes of the technology and important applicants of information retrieval based on retrieval intention from the perspective of patent technology.Finally,we summarize the overall development trend of the existing information retrieval technology based on retrieval intention and the role of patent literatures.
Information retrieval;retrieval intention;multi-dimension
王志超(1987-),女,硕士,研究方向:机器学习;李银松(1988-),男,硕士,研究方向:机器学习(等同第一作者)。
G354
A
1003-5168(2016)03-0063-03
2016-2-20