基于用户本体的图书馆用户数据挖掘系统的功能及架构
2020-12-23金利
金利
摘 要: 设计基于用户本体的图书馆用户数据挖掘系统的功能及架构,提高用户数据挖掘的深度。以创建图书馆通用用户本体为前提,结合图书馆用户数据挖掘技术创建图书馆用户数据挖掘本体系统。该系统通过专用本体功能以及通用本体功能,实现用户兴趣度、满意度、可信度等信息的挖掘;且在分析本体系统的本体功能以及应用功能的基础上,设计图书馆用户挖掘系统架构,在数据层采集图书馆用户各类来源异构数据的基础上,采用用户本体层创建和更新用户本体,通过分析挖掘层采用各类数据挖掘手段和技术,挖掘用户本体,并采用用户背景或领域知识挖掘高层次的用户数据。实验结果说明该系统可有效挖掘出用户的借阅数据以及个人阅读倾向数据,且具有较高的挖掘精度。
關键词: 数据挖掘; 用户本体创建; 信息挖掘; 异构数据; 系统功能分析; 用户本体挖掘
中图分类号: TN99?34; G250.76 文献标识码: A 文章编号: 1004?373X(2020)23?0155?04
Abstract: The function and framework of library user data mining system based on user ontology is designed to improve the depth of user data mining. On the premise of creating the general user ontology of library, the library user data mining ontology system is created in combination with the library user data mining technology. The mining of information about users′ interestingness, satisfaction and reliability is realized by the dedicated ontology function and general ontology function of the system. On the basis of analysis of ontology and application functions of the ontology systems, the framework of the library user mining system is designed. On the basis of collecting library users′ heterogeneous data from all kinds of sources in data layer, the user ontology layer is used to create and update the user ontology. All kinds of data mining means and technologies are adopted to mine the user ontology by means of the analysis of mining layer. The user background or domain knowledge is used to mine user data in high level. The experimental results show that the system can mine the borrowing data and personal reading tendency data of library users effectively, and has a high mining accuracy.
Keywords: data mining; user ontology establishment; information mining; heterogeneous data; system function analysis; user behavior mining
0 引 言
近年来,随着科学技术的发展,以用户为核心的发展模式广泛应用在图书馆发展进程中,因此现代图书馆比较关键的战略资源之一是用户资源,图书馆管理的主要环节是用户资源管理。用户数据挖掘是从大量、模糊以及随机等多种形式的用户数据中提取有使用价值的用户数据。用户数据挖掘是用户资源管理中比较重要的环节之一。目前,图书馆比较重要的研究方向是怎样采用各类技术深度地挖掘、判断和分析用户数据,让海量的用户数据成为图书馆计划和施展个性化服务的重要依据。
本体(Ontology)是指领域概念的结构化规范,它表面地概括了领域内相关概念之间的关系。本体通过描述概念、术语和相互关系的标准化,勾勒出某一领域的基本知识体系,支持优秀的概念层次和逻辑推理。因此将本体融入图书馆用户的数据挖掘系统中是一种很好的尝试。
本文设计基于用户本体的图书馆用户数据挖掘系统,全面、准确挖掘图书馆用户数据,实现用户数据的深入挖掘。
1 图书馆用户数据挖掘系统的功能及架构
1.1 创建图书馆通用用户本体
创建图书馆用户本体的过程包括三部分:
1) 定义用户的各类概念、属性和各类概念、属性间的关系。
2) 以成熟的元本体为前提,则用户本体的概念和概念间的关系采用自然语言描述,并选取符合的本体描述语言对自然语言描述的结果实行形式化处理。
3) 产生的文件能够帮助计算机识别和处理。采集、对比图书馆和用户交互时的有关术语,对照其他领域用户本体创建的数据,获得一个通用的图书馆用户本体概念列表,如表1所示。
能用特定的属性叙述表1中各个概念,如用户行为中 “浏览”这个概念的叙述可用起始时间、终止时间、类型和所浏览信息的有关信息(如题目和核心词)等词语,可用外围概念中 “文献信息”的属性叙述“所浏览信息的有关信息。”另外,在定义有关概念属性时,可以调用已存在的通用专业领域本体叙述涉及到的学科和专业等概念。
1.2 图书馆用户数据挖掘系统的功能
1.2.1 图书馆用户数据挖掘系统本体功能
将创建的图书馆通用用户本体结合图书馆用户数据挖掘技术,创建图书馆用户数据挖掘本体系统,能有效描述数据挖掘本体的各项信息,主要内容如图1所示。
图1中,用户数据挖掘本体系统包括挖掘功能、方法、数据类型、结果和执行环境等内容。其中方法包括后置条件、前驱条件和参数,参数包括参数类型和约束条件。
用户数据挖掘本体系统的通用本体功能如图2所示。可见其由专用本体功能和通用本体功能构成,专用本体功能包括:用户数据挖掘系统能够有效挖掘用户的兴趣度(客观兴趣、主观兴趣)、新奇度和简便度。而通用本体功能介绍如下:
查询:依据用户设置一些查询要求,从表或其他查询中选择所有或个别数据,以表的方式显示数据提供用户浏览。
滿意度:描述图书馆用户对该系统使用情况的实际感受。
可信度:描述图书馆用户对该系统的信赖程度。
用户生命周期:描述图书馆用户使用该系统的期限。
1.2.2 图书馆用户数据挖掘系统应用功能
除了上述功能外,图书馆用户数据挖掘系统的功能还包括:
1) 创建一个基于文献稳定供应单位或个人(如图书馆、出版社和一般用户等)。
2) 从传统文献数据中挖掘用户本体的图书馆用户多样性信息专业数据,如用户分类数据等。
3) 为图书馆用户提供共享路径,创建个性化图书馆,不同类别用户(图书馆管理员和一般用户等)都有相应的管理资源范围。
4) 提高不同语言的信息交融,提升数据的展现程度和使用范围,对外提供更完备的文献数据信息。
1.3 图书馆用户数据挖掘系统的总体架构
以上述研究和分析为前提,设计基于用户本体的图书馆用户数据挖掘系统的总体架构,如图3所示。该系统主要包括数据层、用户本体层和分析挖掘层三个层次,以下是各层的主要功能:
1) 数据层。数据层功能主要包括三个方面:
① 能够完成各种异构资源数据库的按期采集、全文和索引存储、提取产生元数据、完善数字化标引等多种问题;
② 实现网络异构资源的分类组织、发布和保存;
③ 整合各类异构数字资源(包含图书馆内外数据异构),产生一致的查询入口。
2) 用户本体层。该层的功能由三方面组成:
① 创建用户本体,采用用户本体预处理多类来源异构用户数据,完成数据的聚集,换言之,将异构的数据转变成一致的数据形式,清除数据间语法和语义的不同;
② 以用户数据源的改变为前提,持续更新用户本体;
③ 为分析数据挖掘层提供数据挖掘依据。
用户本体库和用户本体管理器构成用户本体层。用户本体库主要用途是保存各个用户的用户本体;用户管理器的主要功能是产生用户本体,依据用户使用图书馆各应用系统的改变,持续接纳新用户数据,更新用户本体,并将更新后的用户本体保存到用户本体库中。
3) 分析挖掘层。该层的核心功能是采用各类数据挖掘手段和技术,如分类规则和决策树等,顺着每个属性和属性间的关系路线挖掘保存在上一层次用户本体库中的用户本体,采用用户背景或领域知识挖掘高层次的数据,加速数据挖掘进度,达到具有深远意义挖掘结果的目的。数据分析挖掘层的主要工作内容包含两方面:
① 分析和提取图书馆中各个用户的多维特征。特征提取是实现用户模式识别的基础,尽量多发现用户特征,尤其是用户兴趣特征和用户信息行为特征,用作识别图书馆和用户交互时的特征。用户兴趣特征和用户信息行为特征分别反映了用户兴趣的专业限度、类型和语种等以及用户应用信息的习惯和方式、询问信息的顺序、特征和走向等。图书馆用户管理中涉及到有关用户准则,典范的知识库是用户本体,可以采用推理、概念归一化等方法提取用户本体特征,提升图书馆对用户特征获得的完全性和精确度。
② 创建用户模型,完成用户的合理聚类和分类等。对各个用户特征实行多维分析的关键,是基于用户本体对用户属性的各个方向实行相像性分析的过程,即从各个方向分析用户本体的相像度,不能只对单个用户的有关数据实行挖掘,对相像度很高的用户基于用户本体建模,完成对图书馆用户自各个方向实行合理分类和聚类。为了对不同类别的用户群提供各种各样独特性服务计划,通过发觉各种各样的虚拟用户社区实现服务计划。
2 实验结果与分析
为了验证本文设计的基于用户本体的图书馆用户数据挖掘系统的有效性,实验将选用辽宁省大连市某大学图书馆作为研究对象,利用本文系统检测该校2019?12?02—2019?12?08期间学生的图书借阅情况。本文图书馆用户数据挖掘系统搜索界面如图4所示。
分析图4可知,图书馆管理员通过图书馆用户数据挖掘系统搜索界面输入想要查询的图书借阅项目,如计算机科学与管理,得到图书馆用户数据挖掘信息结果如图5所示。
分析图5可知,图书馆管理员输入想要查询的图书借阅项目,可以检索到用户的借阅量(单位:次)、借阅时间、所属专业和年龄等信息结果,说明本文系统可有效实现图书馆用户数据挖掘。
为了验证本文系统对图书馆用户数据挖掘的实际情况,实验随机选择某大学大三年级4个专业的87名学生作为研究对象,采用本文系统挖掘这些研究对象在2019年12月2日—8日期间的借阅数据整体情况、参与借阅数据情况、借阅类目排行情况,结果分别如表2、表3所示。分析表2和表3说明,本文系统不仅可以有效挖掘研究对象整体借阅数据,还可以有效挖掘出研究对象具体借阅类目的借阅次数。
采用本文系统对87名学生中的李某和赵某的个人阅读倾向数据进行深入挖掘分析,结果见表4、表5。分析表4、表5可知,本文系统可有效挖掘出李某和赵某的借阅类目集合,以及借阅类目对应的册数和平均天数,说明本文系统可以有效实现图书馆读者个人阅读倾向数据的全面挖掘。
为了进一步验证本文系统的挖掘性能,统计本文系统挖掘87名实验对象针对表3中11种不同类型借阅类目图书借阅次数、借阅时间以及借阅条数的挖掘精度,结果用图6描述。分析图6可知,本文系统挖掘11种类型书目的借阅次数、借阅时间以及借阅条数的精度始终高于95.6%,说明本文系統是一种高精度的图书馆用户借阅数据挖掘系统。
3 结 语
本文从用户本体出发,设计图书馆用户数据挖掘系统的功能及架构,该系统能够对图书馆用户的借阅数据进行全面、准确挖掘,主要是因为本文系统在充分分析用户本体概念的基础上,充分利用用户数据挖掘本体系统具备的专用本体功能和通用本体功能, 通过数据层、用户本体层以及分析挖掘层的系统结构,对用户数据进行全方位深入挖掘。
参考文献
[1] 王红,袁小舒,雷菊霞.人工智能:图书馆应用架构和服务模式的重塑[J].现代情报,2019,39(9):101?108.
[2] 张洪源,刘光辉,王洋,等.基于数据挖掘和整合药理学对中药桃仁治疗冠心病的分子机制探讨[J].中华中医药学刊,2019,37(8):1917?1920.
[3] 高胜,朱建明.基于区块链技术的新型分层数字图书馆体系架构[J].图书情报工作,2018,62(24):57?64.
[4] 陆康.数据圈背景下的智慧图书馆数据汇聚研究[J].现代情报,2019,39(10):102?109.
[5] 刘长良,许涛,王梓齐,等.基于智能电厂大数据的关键参数目标值挖掘技术[J].热力发电,2019,48(9):14?21.
[6] 苏克雷,叶娟,张业清,等.基于数据挖掘的江浙沪名老中医膏方医案关联解析[J].中华中医药杂志,2019,34(6):2721?2727.
[7] 杜时勇.基于大数据的城轨信号系统线网智能运维平台研究[J].都市快轨交通,2019,32(3):13?18.
[8] 王丰.导弹武器系统参数性能指标的可拓数据挖掘[J].智能系统学报,2019,14(3):560?565.
[9] 刘颖超,胡小锋,刘梦湘.多工序下刀具磨损的不完备信息系统数据挖掘[J].计算机集成制造系统,2019,25(5):1055?1061.
[10] 张磐,丁泠允,姜宁,等.基于支持度?置信度?提升度的配网自动化系统数据挖掘算法及应用[J].电测与仪表,2019,56(10):62?68.
[11] 黄博韬,朱邦贤.基于复杂系统论的中药药对数据挖掘研究进展[J].中华中医药杂志,2018,33(6):2485?2487.
[12] 郝艳妮,吴素萍,田维丽.数据挖掘算法在葡萄酒信息数据分析系统中的研究[J].计算机科学,2017,44(z1):491?494.
[13] 王俊波,李慧,邱太洪.基于数据挖掘的CVT电容元件击穿故障分析[J].电力电容器与无功补偿,2019,40(3):96?100.
[14] 欧阳剑,彭松林,李臻.数字人文背景下图书馆人文数据组织与重构[J].图书情报工作,2019,63(11):15?24.
[15] 魏海燕.基于ACRL《高等教育信息素养框架》的大学信息素养教育生态系统构建:以香港城市大学图书馆为例[J].图书情报工作,2019,63(6):56?63.