APP下载

基于Vague相似性的文献推荐研究

2023-04-06刘永志才藏太

贵州大学学报(自然科学版) 2023年1期
关键词:关键字藏文相似性

刘永志,吴 刚,才藏太

(1.福州职业技术学院 阿里巴巴大数据学院,福建 福州 350108;2.塔里木大学 信息工程学院,新疆 阿拉尔 843300;3.藏文信息处理教育部重点实验室,青海 西宁 810007)

随着学术资源的不断积累,文献数量越来越庞大,如以“藏文”为主题在知网上检索期刊,可以查询到有1 741篇(截止到2021年5月22日)文献资源,如此多的文献资源,靠传统的检索排序技术,已不能满足检索者准确快速获取相关重要文献的需求,因此如何为检索者提供更准确的文献推荐已成为学者关注的一个重要问题。目前,常用的推荐技术主要包括基于内容的推荐、基于协同过滤的推荐和混合推荐等[1-3]。基于内容的推荐算法具有不需要检索者的评价意见和相关个人信息,仅需要检索者与文献互动过,从互动的文献中提取特征与待推荐文献特征进行相识性比较,找出相识性比较高的文献就可进行推荐,比较适合于文献的推荐。基于协同过滤的推荐,需要用户注册信息和文献评价信息,由于用户评价数量少也即数据稀疏问题,并且面临新的推荐文献和新注册用户无评分数据也即冷启动问题,不适合作为文献推荐。

基于Vague的相似性产生了很多理论和算法[4-5],本文以2020年刘永志等[6-7]提出的Vague的相似性算法,该算法对模糊度相似性具有计算量小、功能优等特点,可对文献关键词相似性快速计算。基于该算法,以知网中检索到的藏文文献数据为研究对象,利用Vague相似性算法对检索到的文献关键词相似性进行研究,并通过实验验证了该方法的有效性。

1 Vague相似性推荐方法

1.1 关键词排序

预定K为关键词的集合,表示为K={k1,k2,…,km},依据其在摘要和标题中出现的次数认定其重要性,出现的次数越多,重要度越高。

wi=C(ki)a+2×C(ki)t

(1)

其中,C( )代表统计次数,a代表摘要,t代表标题。

如果有几个关键词出现的次数相同,出现在标题中的优先,否则可以默认原来的位置。如K={k1,k2,k3,k4},w1=2+2×0=2,w2=2+1×2=4,w3=3+2×0=3,w4=1+2×1=3,则对关键字依据重要性重新排序为K={k2,k4,k3,k1}。

1.2 转为模糊隶属度

1.3 模糊隶属度转为Vague函数值

利用Gaussian函数取得关键词特征的模糊隶属度,为利用Vague相似性,需要转变为Vague函数值。假设利用Gaussian函数处理过的关键字特征属性值,其模糊隶属的值为V={v1,v2,v3,v4,vx},其值是按重要程度进行排序,v1是最重要的值,v2是次重要的,v2的值也可以看着是对v1值的反对,v1-v2的值是真支持度值,v1是含未知信息的支持度,是最大支持度,所以,用(v1-v2,v1)表示特征属性的Vague函数值,按此思路,转换为Vague函数集为

V={(v1-v2,v1),(v2-v3,v2),(v3-v4,v3),(v4-vx,v4)}

(2)

1.4 推荐排序

约定I为待推荐文献集合,表示为I={I1,I2,I3,…,Im},文献集I中的每个文献Ii(i=1,2,…,m)的n个关键词属性构成向量集KIi={Ki1,Ki2,Ki3,…,Kin},能唯一表示文献Ii的特征,文献特征的Vague函数集为

Xkp(Ii)={,}

(3)

其中,tkn(Ii)表示文献特征的真支持度,fkn(Ii)表示文献特征的假支持度,ukn(Ii)表示文献特征的犹豫度,三者之间的关系为ukn(Ii)=1-tkn(Ii)-fkn(Ii)。

定义Sj(Ik,Ii)为文献Ik与Ii关于特征属性Kj的相似度,根据文献[9-10]求出相似度,进而求出文献Ik与Ii的相似度为

(4)

文献的评分值由下载量和引用决定,并且占比重不同,由于文献发表时间的不同,下载量和引用需要进行处理,该文按年均进行处理,定义文献Ii的评分值为r(Ii),

(5)

其中,0<ε<1,0<φ<1,且φ>ε,Cd(Ii)是文献Ii的年均下载量,mind是文献年均下载量的最小值,maxd是文献年均下载量的最大值;Cy(Ii)是文献Ii的年均引用量,miny是文献年均引用量的最小值,maxy是文献年均引用量的最大值。利用权重加总对文献推荐,公式为R(Ik)=r(Ii)S(Ik,Ii),依据R(Ik)的大小对文献进行排序推荐。

2 实验

2.1 数据来源

以篇名作为主题条件,在知网中输入“藏文”关键词,可以查询到1 741篇中文期刊藏文研究文献(截止到2021年5月22日),本文采集了373篇文献进行推荐研究,采集的文献表示为F={f1,f2,…,f373}。

2.2 实验流程

首先,研究者在F集中挑选一篇感兴趣文献下载,例如f9,提取文献f9中的关键字并依据重要度进行排序,在采集的文献库F中查找与f9有相同关键字的文献,结果进入推荐集的为R={f108,f111,f116,f127,f150,f335,f347};然后,对推荐集R中的每个文献进行关键字排序,计算关键词的模糊隶属度并转换为Vague函数;最后,利用刘永志等提出Vague的相似计算相似度并给出推荐顺序。具体流程如图1所示。

2.3 推荐集关键词排序

文献的关键词一般3到8个,作者在挑选关键字时都非常谨慎,一般都能选择体现本研究内容的关键词汇,但对关键词的排序不太重视,所以,我们需要对关键词进行排序,以体现关键词的重要程度。如标号为f9“基于KNN算法的藏文文本分类关键技术研究”[9]关键词为“KNN算法;藏文文本;特征选择;文本分类”,利用前面第2节的理论对关键字按重要程度重新排序为“藏文文本;KNN算法;文本分类;特征选择”。此顺序更能体现文章的核心内容,为相似性度量打下基础。我们对进入推荐集的文献按关键字重要性进行排序,具体如表1所示。

2.4 关键词模糊隶属度和Vague函数值

取α=1.25,利用第1.3节和第1.4节知识得到推荐集各文献关键词特征模糊隶属度取值,并与f9关键词模糊隶属度取值有相同的放在一行如表2所示,进行Vague转换,其转换值如表3所示。

2.5 相似性和推荐顺序

利用文献[6-7]提出的Vague相似性,计算出推荐集中与f9的相似度如表4所示。

利用下载和被引确定权重,取φ=0.6,ε=0.4,mind=9,maxd=50,miny=0.2,maxy=3,最小和最大的取值原则是比推荐集最大值略大,比最小值略小,这样可以避免出现评分值为0的情况,运用式(5)计算结果如表5所示。

利用R(Ik)=r(Ii)S(Ik,Ii),计算推荐值(保留3位小数)如下:

R(f108)=0.007×0.656=0.005

R(f111)=0.764×0.661=0.505

R(f116)=0.176×0.656=0.116

R(f127)=0.069×0.671=0.046

R(f150)=0.053 7×0.678=0.364

R(f335)=0.337×0.932=0.314

R(f347)=0.35×0.656=0.229

根据推荐值,其推荐顺序为R(f111)>R(f150)>R(f335)>R(f347)>R(f116)>R(f127)>R(f108),该推荐顺序综合了特征值重要度、被引数量和下载量信息,其推荐顺序不仅体现了文献的相关性,还体现了文献的引用量和下载量,通过该方法能把好的文献推荐给读者。

3 结论

本文以Vague相似性技术为基础,以文献研究推荐为例,从关键词排序、模糊隶属度转换、结合年均下载量和年均引用,对进入推荐集的文献进行推荐排序。实验结果表明,推荐顺序不仅体现了文献的相关性,还提现了文献的引用量和下载量,能把高质量文献推荐给读者,并在一定程度上解决了内容推荐特征属性表示难的问题和冷启动问题,对Vague值的转换上也提出了新思路,为文献内容推荐提供了新的方法。

猜你喜欢

关键字藏文相似性
一类上三角算子矩阵的相似性与酉相似性
履职尽责求实效 真抓实干勇作为——十个关键字,盘点江苏统战的2021
浅析当代中西方绘画的相似性
西藏大批珍贵藏文古籍实现“云阅读”
成功避开“关键字”
黑水城和额济纳出土藏文文献简介
藏文音节字的频次统计
现代语境下的藏文报刊
低渗透黏土中氯离子弥散作用离心模拟相似性
V4国家经济的相似性与差异性