APP下载

微博短文本检索关键技术

2015-01-29吴晓阳

中国科技信息 2015年21期
关键词:实时性博文排序

吴晓阳

微博短文本检索关键技术

吴晓阳

微博作为当前使用非常广泛的社交软件已然成为了人们获取实时信息的重要途径之一,然而微博短文的自身特点使得其检索的难度相应增加,通过相应的模型建立才能更好的将当前所面临的一系列检索困难一一解决,最终帮助人们搜索到相应的内容,从而更好的获取相关信息。

微博是一种通过关注机制分享简短实时信息的广播式的社交网络平台,用户可以通过WEB、WAP等各种客户端在微博网站建立个人社区,以不超过140个字符的短文本消息来进行实时信息的基本分享。近几年使用手机、平板电脑等移动客户端上网的用户迅速增长,微博因其使用便捷、语言精炼并且信息量充足的特点而逐渐备受追捧,成为一种影响力巨大的新媒体形式,人们通过微博分享的信息作为当前一项非常重要的实时信息来源。但同样由于微博的消息限定为140个字,属于典型的短文本内容,具有数量庞大、书写较随意、主题相对杂乱并且实时性强等特点,使传统信息检索技术在面对海量微博的检索任务中遇到许多难题,如何解决这些问题成为了当前微博短文检索技术的关键所在。

实时性语言模型和融入时间信息的查询建模

实时性语言模型

语言模型作为检索的最基本模型框架是非常重要的技术点,而实时性语言模型的建立能有效的帮助更加全面搜索到相应的微博文本信息。因为时间是提高检索质量的重要因素之一,有效的利用时间条件就能很好的提升检索的准确性,而实时性语言模型就是利用了这样的一个技术原理。

微博因为文本短小所以在一定程度上需要通过时间这样一个元素进行区分,而在当前大部分的搜索引擎当中,一般都是基于网页中的关键词频率、链接、用户评价计算权重来对该网页文本进行加权,使得不同的网页在检索结果中具有不同的先验概率。这样一来以微博文本的时间特性作为重要的查询条件输入到相应检索公式中就能使得检索出来的信息更具有准确性和针对性,从而也就更有可能满足搜索人的相应需求。

融入时间信息的查询建模

之前已经描述出了时间信息在微博文本检索中的重要性,这也是基于微博这样一种特殊的信息发布而形成的,所以良好的融入时间信息的查询建模往往就能更为行之有效的达到相应的检索需求。而最终搜索到的相应微博文本信息也就能缩小其广度而增强其精度。

比方说通过利用微博文本的平均“年龄”来融入查询检索中,而文本年龄即与其提交的时间相关。将文本年龄作为计算因子加入到检索排序公式之中,检索后得到一个初始微博文本的列表,这样就能更加精确的查询出相应的微博文本而极大的减轻了短小随意而且实时性强等条件的干扰。

基于参考文档模型的微博文本检索

参考文档模型建立的作用

微博因为字数限定所以大都为短文本,而这类文档的检索进行时极易发生词典问题,这就会直接导致搜索信息的不够准确使得搜索的难度增大,搜索者即便通过关键词进行查询仍旧要花费一定的时间再从检索内容中进行区分,最终才能找到自己所需要的相应微博内容。这就极大的提升了搜索功能的使用难度并且带来较坏的体验感。

反馈技术作为检索体现的根本技术,基于早期仍存在着一定的问题,仅对查询而不对文档进行反馈使得检索结果宽泛而更具模糊性。同时利用的反馈源如果仅局限在待检索的文档集合本身,则会造成反馈中能够使用的信息资源有限,这都会极大程度的影响到检索结果达不到预期要求。而在参考文档模型框架下对查询和文档同时进行反馈建模,就能很好的解决相应技术问题。

参考文档模型建立的技术关键

参考文档建模的主要方法是利用参考文档,对查询和待检索文档集合同时进行反馈建模,所以在建模过程中,参考文档本身具有非常重要的作用。在以前的一些检索技术中一般会以检索相同或者相近领域的文档来作为最终的参考文档,但是鉴于微博文本短小的特点,这样传统的检索方式往往就会使得检索信息结果难以达到预期效果。

同时,传统技术的相应特点往往容易形成伪反馈从而降低检索反馈的精度,良好的将参考文档进行精确的选择建立同时在伪反馈的基础上优化相关性,这样就能更好的通过实时反馈进行信息的检索从而提升精确程度,最终让检索的内容更加具有针对性。

基于排序学习模型的微博文本检索

在微博文本检索中使用排序学习模型的重要性

传统的检索技术中,使用排序得到的结果往往比较简单和粗糙,比如向量空间模型和语言模型等,但是基于文本的特性使得检索仍旧能够达到一定的精度,最终也不会产生太多检索差异。但是对于微博文本的特点尤其是在近些年微博的使用越来越广泛,形成的微博文档的数量也变得越来越多,排序的简单粗糙性就在一定程度上影响到了传统检索模型的搜索精度。

当人们逐渐意识到了排序模型的重要性,开始采用排序学习方法,一项基于机器学习的新的学习方法。使用机器学习技术同时让有标注的数据自动学习一个排序模型,这样就能让检索更加智能且具有时效性,最终帮助搜索结果更能符合检索者的预期。

排序学习模型中特征抽取的相关问题

在建立排序学习模型的过程中,最关键的问题就是特征选择,如何进行特征选择往往直接决定了检索结果。而相应的特征类别主要分为微博的相关性、微博用户特征以及微博文本特征这三类,因此良好的将这三类特征严格区分并将相应的数据结合进入检索公式当中就能有效的完善排序学习模型的建立,提升检索的精准度。

所谓特征抽取一定不能仅仅关注三类特征中的一种,之前所提到了微博文本具有简短而数量巨大的特征,所以只有良好的将三类特征进行严格的区分规划,最终结合起来检索,这样才能保证提升微博检索的有效率。使用单个特征虽然能在一定程度上减少资源的消耗但极有可能带来的就是最终的检索结果往往并不能尽如人意。

结束语

微博作为当前人们使用非常广泛的社交软件已经成为了解实时信息的重要来源之一。但是文本简单、实时性强等特点反而增加了微博短文的检索难度,通过相应的技术进行良好有效的解决才能将这些问题逐一解决并最终更加完善的将相应的微博信息搜索得出。通过增强和解决相应的技术问题才能从根本上解决微博文本检索困难、信息不够准确、达不到相应检索者需求的一系列问题。

10.3969/j.issn.1001-8972.2015.21.025

猜你喜欢

实时性博文排序
第一次挣钱
作者简介
恐怖排序
节日排序
谁和谁好
航空电子AFDX与AVB传输实时性抗干扰对比
计算机控制系统实时性的提高策略
可编程控制器的实时处理器的研究
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut