数字图书馆数据查询影响因子及用户兴趣模型设计
2018-04-26吴俊绒
吴俊绒
(陕西财经职业技术学院, 咸阳 712000)
0 引言
当前信息化进程加速,网络信息技术对于各种传统行业的发展都产生了重要的影响。面临着越来越多样化的用户需求,传统的图书馆形式也无法更好的满足用户的需求。网络化和数字化为主体的图书馆形式也加速推进进程,内部包含了越来越多电子信息,这样会容易导致用户陷入到信息海洋当中,无法快速有效的找到自己想要的信息[1]。当前图书馆所采用的不少查询功能都是基于用户提交的关键词或者是匹配数据库当中的信息,对于查询结果并不会进行专门的排序,更不会将用户的兴趣放在首要位置[2]。这样不同用户如果提交的关键词相同,而他们的兴趣却千差万别,搜索出的结果是一样的,不会根据他们自身的兴趣而发生改变,使用户个性化的需求得不到较好的满足。本次研究以用户兴趣模型为基础,所谓用户兴趣模型就是可以计算描述用户所感兴趣的信息,然后再收集用户感兴趣的点,构建专门的模型来对用户的兴趣进行记录和管理。
1 图书馆用户兴趣模型的具体设计与构建
如果用户是初次使用数字图书馆,那么可能无法获得用户具体的点击时间和浏览时间,因此需要借助于用户显式反馈方法,构建以用户兴趣为基础的模型。本次研究所采用的用于表示用户兴趣的方法为向量空间模型法。此种方法的具体应用为:需要假设用户所提交的兴趣主题为N个,用户在选择感兴趣文献的时候可以按照不同的主体,使用向量表示相关兴趣模型。比如可以采用以下方式表示:
D=(d1,d2,…dn)
向量di与特征词之间又存在一定的关系,比如可以使用tj来进行表示。比如:
di={(t1,w1),(t2,w2),…(tm,wm}
另外还需要对tj在其相对应的文献当中所占据的权重值,即TF-IDF权重值进行计算,所采用的公式为:
在该公式当中,文件总个数采用s表示,特征词tj文件数采用sj来表示;在文件i当中,特征词所出现的次数采用tfij来表示;在文件当中出现次数最多的词采用tfmax来进行表示。
2 图书馆用户兴趣模型的更新设计步骤
用户在实际浏览文献的过程中,其兴趣并不是一成不变,随着他们自己浏览信息的变化以及阅读量的改变,用户的兴趣也在发生相应的变化[3]。如果是在高校,图书馆面临的用户主要是老师和学生,在某个时间段内由于课程的影响,或许对某些数据十分感兴趣。所以这也说明用户兴趣模型在构建之后并不是一成不变的,而是需要对之前的查询记录进行保存,而且还需要以最快的速度进行更新。
用户在接受数字图书馆所提供的服务时,如果查阅的信息可以满足用户的需求,那么用户会直接进行查阅,但是如果用户的需求得不到满足,那么用户会更换查询的关键词[4]。通常用户在正常查询的过程中也需要更改多次的关键词才可以查询到自己需要的信息。更新用户模型设计如下:
(1) 把关键词设置为用户本次输入的内容,再对用户最后一次浏览记录当中该词出现的情况进行计算,得到TF-IDF值,如果权值比阈值大,那么用户的查询意图并未发生明显改变。
(2) 在具体更新的过程中,如果发现阈值低于用户兴趣度则需要将用户本次输入的文献信息纳入到模型当中实现更新。
(3) 不同用户的兴趣度不同,兴趣度的计算则是需要以用户的点击时间和次数为几乎进行计算。在具体应用数字图书馆查询时,应用单一查询词来进行查询的比较少见,所以会应用高级搜索或者扩展检索等方式,所以需要将查询词C纳入到用户兴趣度模型计算当中。计算用户兴趣度的公式主要为:
在该公式当中,Pk所代表的是查询词k在历史记录当中的次数;查询词总数使用Q来表示;查询词C在上次用户查询记录当中j的平均浏览时间和次数分别使用Tqij和nqij来进行表示。
计算用户平均浏览速度在具体计算的过程中,不能仅仅按照用户浏览时间的平均值开展相应的计算,同时还需要将文献自身的差异性考虑在内[5]。所以在具体更新设计的过程中还需要进行相应的无量化处理。
假设用户浏览时间采用T来表示,而不同文献信息中使用字符量M表示,那么平均时间的计算可以采用以下公式实现:
用户浏览时间平均值的计算还需要对已经设定好的阈值和兴趣度等进行比较。如果阈值低于用户的兴趣度,这需要将用户的兴趣度纳入到用户兴趣模型当中,这样也是对用户兴趣模型进行具体更新的过程,以此为基础为用户下一次使用数据图书馆的查询奠定基础。对于最初所构建的用户兴趣模型,即D=(d1,d2,…dn),需要根据新增文献信息向量的具体情况来开展下一步的设计。若新增文献信息向量的x值和已经构建的di值相似度比较高,那么可以将兴趣向量和信息向量融合在一起,即实现两者合并。在具体合并过程中,需要将x特征词以及其对应的权值加入到兴趣向量当中,若发现某特征词包含在di当中,权值是两者之和。在具体合并好之后,还需要按照特定的顺序来排列特征词。但如果x值和di值之间的相似度都比较低,那么需要将x作为用户的新兴趣完成对已有用户兴趣模型的更新。
3 数字图书馆数据查询影响因子的相关内容分析
在数字图书馆数据查询系统当中常见的信息检索模型为向量空间模型,而且其已经得到了十分广泛的应用,在数字图书馆的结果查询排序以及检索信息领域都得到了较好的效果[6]。本次研究所采用的模型正是这种模型。向量空间模型当中向量必然是重要的构成要素,而该模型当中的向量主要是将用户需要查询的相关文献信息以及查询语句信息等进行相应的映射,这样机会得到向量,继而对语句的相似度进行查询,并且借助于已经选定好的相似法来对查询对象进行计算。查询结果的筛选需要设定相似度阈值,再查询结果,最后对查询结果的排序需要以相似性大小为标准。本次对于查询结果的排序优化,则需要结合先前所设计的用户兴趣模型,得到影响结果的影响因子。
影响因子计算需要以文献信息平均相似度Yj和用户模型D等来进行计算,在得到相关的影响因子之后,然后再进行优化查询结果排序问题。当前在相似度计算当中,余弦相似法是被大多数人所普遍接受的一种方法,也被广泛使用在向量空间模型的具体计算当中。关于用户兴趣模型影响因子以及余弦相似度等方面的的计算,需要应用到以下公式:
对检索结果的影响因子计算所采用的公式为:
在计算得到了检索结果之后需要按照特定顺序来进行专门的排序,排序需要根据优化之后的相似度来开展相应的计算,计算公式如下;
S最终=ω影响因子×S向量
4 图书馆用户兴趣模型及数据查询结果优化排序应用效果分析
本次研究所侧重的内容是构建用户兴趣模型,同时基于用户兴趣的多变性,设计用户模型更新模型。除此之外,为了得到更加准确的数字图书馆数据信息查询结果,提高其治疗的有效性,需要对影响结果的相关因素进行研究分析。因此本次研究还对影响因子进行研究计算和分析。
为了进一步验证本次所设计的基于用户兴趣的模型的有效性及应用性,将其应用在具体的数字图书馆中,并且对应用前后的效果变化情况进行对比研究。采用的调查方法为调查问卷,所设置的问题分别包含应用前后用户对数据查询结果的的满意度、查询的便利性以及结果的准确性等进行调查。问卷共计发放100份,回收且有效的问卷总数为95份,回收有效率为95%,表1为应用用户兴趣模型构建数字图书馆查询系统的调查结果。
表1 基于用户兴趣模型优化数字图书馆数据查询系统的
5 讨论
(1) 用户兴趣模型顾名思义是以用户切实的兴趣为出发点,在成功对用户的兴趣进行捕捉之后,构建相应的模型,实现对用户兴趣的管理。用户兴趣模型当中包含用户在使用数字图书馆过程中所有的查询记录,以及点击浏览的记录等,这些都是判定用户是否满意的重要标准。本次设计为了使数字图书馆数据查询结果得到进一步的优化,应用了用户兴趣模型,旨在通过设计和应用这一模型,让用户的个性化需求得到更好的满足,同时也使得图书馆馆藏信息得到更加准确的查询。
(2) 用户自身的兴趣会随着阅读量及阅历的变化而发生相应的改变,所以用户兴趣模型并非一成不变,需要结合用户自身兴趣的变化而发生相应的更新,这就需要设计相应的用户兴趣更新模型。
(3) 数字图书馆数据查询影响因子对用户最终所得到的查询结果有着直接影响,所以还需要通过设计相关的计算公式来计算得到影响因子,并且按照从大到小的顺序来对影响因子进行排列,有针对性的优化数据查询系统。
(4) 通过对该模型的实际应用和调查发现,其能够更好的贴合用户自身的兴趣,更好满足他们个性化的需求,而且调查结果也显示在应用前后的满意度、结果准确度以及查询便利度等明显提升。
[1] 杨震,司书勇,李超阳. 基于用户隐式兴趣模型的信息推荐技术研究[J]. 山东大学学报(工学版),2017(7):1-7.
[2] 宰姣姣. 基于用户兴趣模型的数字图书馆数据查询结果排序优化研究[J]. 农业图书情报学刊,2015(7):5-7.
[3] 陈洁敏,李建国,汤非易,等. 融合“用户-项目-用户兴趣标签图”的协同好友推荐算法[J]. 计算机科学与探索,2017(2):1-9.
[4] 宰姣姣. 基于用户兴趣模型的数字图书馆数据查询结果排序优化研究[J]. 农业图书情报学刊,2015,27(7):5-7.
[5] 王庆福. 基于多维尺度向量的用户兴趣模型构建研究[J]. 微型电脑应用,2015,31(5):39-41.
[6] 刘鑫,张曾杰,李晓城,钱松荣. 主题兴趣度提取方法及其在用户兴趣模型中的应用研究[J]. 微型电脑应用,2011,27(3):38-41+5.