大数据分析技术的数字图书馆信息检索模型设计
2020-09-21王均玲
王均玲
摘 要: 针对当前数字图书馆信息检索模型存在精度低、误差大等难题,为了获得理想的数字图书馆信息检索结果,提出大数据分析技术的数字图书馆信息检索模型。首先,分析国内外数字图书馆信息检索相关文献,找到引起数字图书馆信息检索效果不好的原因;然后,收集大量数字图书馆信息检索的数据,并引入大数据分析技术建立数字图书馆信息检索模型;最后,采用具体数字图书馆信息检索实例分析所提模型的优越性。结果表明,文中方法的数字图书馆信息检索准确率要高于其他数字图书馆信息检索模型,克服了当前数字图书馆信息检索存在的一些问题。
关键词: 大数据分析技术; 图书馆管理系统; 检索精度; 检索模型; 领域本体; 本体结构
中图分类号: TN99?34; TP311.52 文献标识码: A 文章编号: 1004?373X(2020)17?0155?03
ry information retrieval model, a digital library information retrieval model based on big data analysis technology is proposed to obtain ideal information retrieval results. The related literature at home and abroad for the digital library information retrieval is analyzed to find out the reasons of poor effect of digital library information retrieval, and then a large number of data of digital library information retrieval is collected to establish the digital library information retrieval model with big data analysis technology. Finally, the advantages of proposed model is analyzed with specific examples of digital library information retrieval. The results show that, in comparison with other digital library information retrieval models, the proposed model has higher information retrieval accuracy and overcomes some difficulties in current digital library information retrieval.
Keywords: big data analysis technology; library management system; retrieval accuracy; retrieval model; domain ontology; ontology structure
0 引 言
數字图书馆是知识经济的载体,已在各国文化科技竞争中成为焦点[1]。大数据分析技术的出现改变了传统图书馆受到地域、时间和空间的限制,它可以随时为人们提供有用的信息资源。智能型Agent在数字图书馆中主要用于对图书的存取和搬运,早前在日本的早稻田大学就有人构建机械Agent,它能够将读者选择的资源自动运送到指定区域。这样免除了大量的人力资源消耗,为市民提供24 h的图书馆借还服务。智能算法是大数据分析技术的核心部分,在本次设计中,结合智能算法、智能检索技术和智能语义转换服务提高信息检索效率,处理查询信息,构建数字图书馆信息检索模型。
传统的检索模型是基于关键词的信息检索,已无法满足读者的查询需求,这是由信息检索查询服务智能化水平降低、共享程度低导致的。为了解决这个问题,在原有的基础上,从知识层次检索信息,从语义角度理解用户的查询请求,分析信息检索过程。大数据分析技术的数字图书馆信息检索模型是通过分析符合用户需求的信息集合,处理检索需求的。希望本次研究成果可以应用于数字图书馆检索领域,实现语义信息检索。
1 数字图书馆信息领域本体构建
利用大数据分析技术构建领域本体,再到知识库中,搜索用户需要检索的信息[2]。当用户输入查询请求时,推理机会在领域本体的基础上语义推理输入的关键词或者语句,形成逻辑表达式,上传到检索系统。在检索时还需要采用RDF等工具描述实例推理,依据推理规则,由系统程序员根据具体情况创建规则。最后,从数字图书馆的信息资源中搜索出符合用户需求的相关文献资源。
但由于领域本体的类型不同,需要按照本体开发的层次构建领域本体[3]。具体构建方法如下:
1) 使用单本体方法,说明全局本体提供的共享词汇集,所有的信息源必须要与全局本体发生联系,保证语义的一致性。单本体结构如图1所示。
当需要映射某一特定领域时,可采用该方法,前提是单本体不会受信息源变化的影响[4]。
2) 使用多本体方法,描述不同信息源,并使每个本体都拥有自己的词汇集[5]。多本体结构如图2所示。由图2可知,当信息源发生变化时,本体结构改动较小,这也是多本体方法的优势所在[6]。
根据领域本体的需求,选择合适的分类方法,准确地从数字图书馆的信息资源中搜索出符合用户需求的相关文献。
2 数字图书馆信息用户查询信息处理
在构建领域本体后,需要处理用户查询信息,采用统一模式解析文本形式,存储到文档数据库。在MARC标准下,根据数字化文档元数的规范定义提取文档数据库中的文档信息[7]。为方便数据共享,采用XML提取元数据组织存储到元数据库。具体提取过程如图3所示。
依据MARC元数据提取标准,提取各类数据库信息,再细化,实现文档信息元数据提取[8]。但因XML不具备语义描述能力,需构建概念模型,描述两者之间的关系。
在完成上述工作后,利用语义字典和主体词表等工具简化程序,减少创建元数据的工作量。
3 数字图书馆信息检索
先构建领域本体,再处理用户查询信息,在此基础上构建数字图书馆信息检索模型,具体实现步骤如下:
Step1:应用智能算法处理上下文单词,计算候选术语的出现频率、候选术语长度、候选术语出现次数总和,计算公式如下:
式中:[C?Value]表示智能算法;[a]表示候选字符串;[log]表示字符串长度;[f]表示出现频率[9]。
在运用智能算法抽取术语时,要先计算[C]?Value值,再构建词性过滤规则,搜索符合词性过滤规则的术语[10]。
Step2:在获得候选术语列表后,需要计算可接受的精度,应用智能算法NC?Value计算一个上下文加权因子的权重,计算公式如下:
式中:[w]表示上下文中的词汇;[t(w)]表示术语数目;[n]表示所有术语总数;[weight(w)]表示上下文加权因子[11]。
Step3:在此基础上构建数字图书馆信息检索模型层次架构,见表1。
以下是模型层次解析:
第一层:应用层是基于互联网的入口集合,结合了人工智能服务的特点,方便用户在各功能界面获取信息[12]。
第二层:服务层,模型的核心部分。主要负责智能信息检索服务和个性化信息推送服务。
第三层:支持层,是数字图书馆信息检索平台的引擎部分。主要负责采集信息、检索业务、分类信息、存储信息[13]。
第四层:资源层,是整个数字图书馆自身數据库的支撑。
大数据分析技术的数字图书馆信息检索模型如图4所示。
图4模型是依据概念语义检索原理完成的,具体检索流程如下:
首先,运用概念检索技术,在领域专家的帮助下,构建领域本体[14];其次,在MARC元数据标准下,利用大数据分析技术收集信息源中的数据,并建立元数据存储到元数据库;再对检索界面提交查询请求,处理检索需求;最后,排序领域本体的语义相似度,相似度大的靠前,排序后提交给用户[15]。
由此,完成大数据分析技术的数字图书馆信息检索模型的设计。
4 仿真实验结果与分析
为验证所建的大数据分析技术的数字图书馆信息检索模型的可行性,将与SaaS领域相关的600篇文本作为前景语料,主要涉及新闻和文化等领域。为保证实验具有说明性,分别检测传统检索模型和所建模型的检索匹配结果是否能够获得效果非常好的准确率、召回率和平均权重值。表2和表3分别为所建模型和传统检索模型检索SaaS领域中经常使用的15个检索词的准确率、召回率和平均权重值的结果。
通过分析表2和表3可知:使用大数据分析技术的数字图书馆信息检索模型对这15个检索词检索时,获得了效果非常好的准确率、召回率、平均权重值,由此说明所建模型相比传统模型检索匹配结果更好。总结使用该模型检索结果较好的原因:一方面,与查询SaaS领域有关,使得抽取的检索准确率较高;另一方面,与检索角度有关,使用本次设计的检索模型检索时,先语义化处理这些检索词,计算每个数字图书馆信息的相关索引。
5 结 语
针对传统数字图书馆信息检索模型存在的问题,本文提出一种新的模型。大数据分析技术的数字图书馆信息检索模型提供了共享平台,相对传统模型的优势在于,大数据分析技术具有广阔的应用前景,可以构建个性化信息推荐和智能信息检索模型。该模型从检索的视角出发,构建了数字图书馆信息检索框架,希望本次设计能够为数字图书馆开展面向用户的信息检索提供参考。
参考文献
[1] 吴丹,程磊.信息组织与检索的研究热点与动向:语义、交互与社群[J].图书情报知识,2017,21(4):4?12.
[2] 张小英.Web集成信息检索在数字图书馆中的应用研究[J].价值工程,2017,36(29):202?204.
[3] 李莉.基于多Agent技术的数字图书馆个性化信息服务检索模型研究[J].情报科学,2018,36(5):90?93.
[4] 谷参.基于分布式结构的图书馆信息检索服务系统研究[J].现代电子技术,2017,40(1):83?85.
[5] 江小燕,王明辉.基于本体的PPP项目风险信息建模与检索[J].土木工程与管理学报,2018,35(1):66?72.
[6] 韩永青.基于BIBFRAME模型实体:关系映射法的馆藏学科资源语义化机制及实现:以“信息检索”学科为例[J].图书馆杂志,2017(9):35?41.
[7] 何旭峰,陈岭.基于LDA主题模型的分布式信息检索集合选择方法[J].中文信息学报,2017,31(3):125?133.
[8] 贾贺,艾中良.基于Solr的司法大数据检索模型研究与实现[J].计算机工程与应用,2017,53(20):249?253.
[9] 刘激.基于大数据的高校图书馆服务转型探究[J].江苏科技信息,2017(25):10?12.
[10] 刘东波,黄惠勇.基于中医药领域本体的信息检索模型研究[J].湖南中医药大学学报,2017,37(2):220?224.
[11] 赵谦,荆琪.一种基于语义与句法结构的短文本相似度计算方法[J].计算机工程与科学,2018,40(7):1287?1294.
[12] 王志宏,杨震.大数据分析技术研究及未来智能化信息服务体系的思考[J].电信科学,2017,33(5):1?11.
[13] 谢蓉,刘炜.数字学术与公众科学:数字图书馆新生态:第十三届数字图书馆前沿问题研讨班会议综述和思考[J].大学图书馆学报,2017,35(1):6?10.
[14] 齐云飞,赵宇翔.基于BIBFRAME的数字图书馆语义搜索框架研究[J].图书与情报,2017,23(1):74?81.
[15] 张红斌,殷依.基于词序列拼积木模型的图像句子标注研究[J].北京理工大学学报,2017,37(11):1144?1149.