APP下载

关于结构化向量空间模型的研究

2017-03-17魏芊汇

电子技术与软件工程 2016年16期
关键词:信息检索结构化文档

摘 要

在我國当下的网络信息检索中,传统的向量空间模型因为不能较好的解决索引项之间的相互独立型和Web文档半结构化之间的矛盾,已经不能较好的满足我国民众对于网络信息检索的需求,在这种背景下,结构化向量空间模型开始被用于网络信息检索之中,且发挥着不俗的应用效果,在这种网络信息检索的发展现状下,本文就结构化向量空间模型进行了具体研究,希望能够进一步推动结构化向量空间模型在网络信息检索中的应用发展。

【关键词】向量空间模型 结构化

1 传统向量空间模型

在Web信息检索所使用的传统向量模型中,传统向量模型本身将文档与用户视为由相互独立索引项组成的等长向量。而在传统向量模型的使用中,我们还可以通过对某索引项Tj在文档集Dj中权重Wij,表示这一索引的重要程度,通过我国当下流行的权重计算公式

,就可以计算得出某索引项Tj在文档中的具体重要程度,也就是指Tj这一索引项的文档集中比例,但这种计算方式不能够很好地对索引项Tj在文档中的分布差异性进行较好而表现。在对文中分布差异性表现存在的问题中,半结构化的Web文档集合由于自身不同位置存在着不同的权重,这就使得这种文档集合本身包含的信息量较大,而这种信息量较大的特点对于具体索引项在半结构化的Web文档集合中的分布差异性的表现也就变得更加困难。值得注意的是,传统的向量空间模型每增加一个文档都需要通过

公式进行向量的重新计算,这种特点的存在客观上降低了传统向量模型的运行效率,制约了传统向量模型的发展。

2 结构化向量空间模型的优点

由于传统的向量空间模型在应用中存在着一些问题,制约着Web信息检索效率的提升,这就催生了结构化向量空间模型在Web信息检索中的应用。由于结构化向量空间模型本身是从传统向量空间模型发展而来的,这就使得结构化向量空间模型既具有传统向量空间模型的特点,又能够较好的对半结构化的Web文档集合中索引项的分布差异性进行表现,在实现这一功用中,结构化向量空间模型会将具体的文档按照一定策略进行区域划分,这种划分会将Web文档本身分为长度与内容都不同的文本段,这样就可以较好的对不同文本段索引项的权值进行较好的区分。在这种结构化向量空间模型的应用中,传统向量模型所无法解决的运行效率降低的问题,结构化向量空间模型能够予以轻松解决,而如果将两种模型进行具体对比,我们就能够发现结构化向量空间模型所具有的较高的查准率。值得注意的是,在结构化向量空间模型的应用中,对于传统向量空间模型没有考虑过的索引项的具体出现位置与索引项的附加信息,其能够通过自身功用较好的进行解决,保证自身应用对Web文档中索引项权值频度、位置、大小等信息的具体计算,最大程度上提高Web信息检索中匹配结果的精确程度。

3 结构化向量空间模型的应用

结构化向量空间模型在Web信息检索中的具体应用,能够有效解决传统向量空间模型在应用中存在的问题,并会切实通过解决索引项之间的相互独立和Web文档半结构化的矛盾,保证Web信息检索效率与质量的提高。在结构化向量空间模型在Web信息检索中的具体应用,结构化向量空间模型会通过自身逻辑将Web文档分为文本段,通过对不同文本段的特征向量计算,组成具体的结构化向量组,这就使得结构化向量空间模型的具体应用形式。笔者将在下文中对结构化向量空间模型应用中文档索引项分段权值以及查询向量与文档向量的相似度这两方面重点环节进行详细论述。

3.1 文档索引项分段权值

结构化向量空间模型在Web信息检索的具体应用中,我们提到了结构化向量空间模型会将Web文档本身分为长度与内容都不同的文本段,在这里我们将第k个文本段记录为Sik,将文档本身用Di表示,这样我们就可以通过公式

,对结构化向量空间模型中索引项Tj在文本段Sik中的分段权重进行具体计算。在这一公式之中,λk代表位置加权系数,这一系数主要对结构化向量空间模型不同位置索引对文档主题的贡献大小进行描述。

3.2 查询向量与文档向量的相似度

在结构化向量空间模型的应用中,对于查询向量与文档向量相似度的计算,也是结构化向量空间模型能够完成的任务之一,而为了完成这一计算,我们首先将询串q的查询向量设为Qq,这样我们就可以利用公式1进行具体的计算。

(1)

4 结构化向量空间模型的应用

通过结构化向量空间模型的应用,我们就能够设计出较为优秀的Web信息检索系统,这一系统的具体系统框架如图1所示。

在这一框架中,其本身主要包括数据源处理模块、页面解析模块、链接分析模块、索引组织模块、检索模块以及用户接口模块。在这些模块组成的系统中,其通过PageRank和结构化向量空间模型所组成的检索系统,就能够很好地对网页进行结构化解析,并通过开源系统ICTCLASS实现网页的分词,利用TFIDF实现文档的相似度查询,并通过两者集合的方式实现网页的排序。

5 结论

综上所述,在我国当下的Web信息检索中,传统的向量空间模型已经不能满足我国民众的需要,而通过对传统向量空间模型升级而得到的结构化向量空间模型的应用,却能切实提高Web信息的检索效率与质量,因此本文对其进行了具体研究。

参考文献

[1]DavidC.McClelland.TestingforCompetencyRatherThanfor"Intelligence"[J].AmericanPsychologist,2009(28):1-14.

[2]LyleM.Spencer,SigeM.Spencer.ComptenceatWork:ModelsforSuperiorPerformance[M].NewYork:JohnWiley&Sons,Inc,2013.

[3]李旭丹,吴文艳.结构化向量空间模型的文本聚类算法研究[M].上海:华东理工大学出版,2013.

作者简介

魏芊汇(1996-),女,福建省福清市人。2013年起就读于华南理工大学计算机学院网络工程专业,研究方向为计算机。

作者单位

华南理工大学计算机学院 广东省广州市 510006

猜你喜欢

信息检索结构化文档
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
基于RI码计算的Word复制文档鉴别
医学期刊编辑中文献信息检索的应用
基于神经网络的个性化信息检索模型研究
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
基于图模型的通用半结构化数据检索
教学型大学《信息检索》公选课的设计与实施