APP下载

面向学术交流的机构知识库发现系统的核心技术研究

2021-04-14刘亚丽

卷宗 2021年17期
关键词:数据源知识库关联

曹 霞 刘亚丽

(1.黑龙江中医药大学图书馆,黑龙江 哈尔滨 150040;2.东北林业大学图书馆,黑龙江 哈尔滨 150040)

随着大数据以及云计算等技术的深入发展,如何更好地运用新技术为机构知识库的发展提供良好的生态环境,是当前机构知识库的研究方向之一。现阶段,将机构知识库的内部同多种知识库资源实行连接,是新一代知识库发展的关键手段,有利于促进其个性化以及知识化发展。在这一背景下,对关联数据的运用,使其深入发掘知识库中的潜在价值,分析资源整合以及知识服务的新业态,这是新一代知识库构建以及发展的关键。

1 机构知识库基本架构与功能解读

1.1 机构知识库基本架构

对于新一代知识库来说,它主要是借助集成云计算以及大数据等技术,促进机构知识库的研发,从而使其可以为用户提供较多的服务支持。在机构知识库中,其底层数据来源的范围非常广,其中有WOS、EI、机构文库等。而且其数据类型也比较多,其中有期刊论文资源、学位论文资源以及专利等。从内部功能来看,主要是借助数据处理流程,针对学术成果来说,可以自动进行更新,有效解决学者姓名以及机构名称等拼写错误,实现对机构以及学者的甄别。与此同时,能够对学者以及机构的学术产出,实现准确地追踪,还可以完成学术评价以及同行评审工作,深化科研合作,加快知识的传播,实现资源共享。从外部功能来看,主要是借助标准数据接口,对各种服务进行整合,能够实现人事、教学以及科研管理系统的有机融合,有利于更好地服务于机构教学、管理和科研活动。从其服务功能上来看,其中包括对数据目标的管理,对机构影响力的评估以及实现内容自动更新等服务。

1.2 机构知识库功能服务

1)数据与复合目标管理服务。伴随学术的深入研究,学术产出以及形式逐渐丰富起来,这也致使多种形式的学术产出,逐渐从科研转到前台。其中就有科学数据、软件以及图像等。针对单一内容目标类型而言,其组织变得非常容易,针对复合型的目标,就要借助关联组织模式,所以该功能就融入了新一代知识库,让其服务于发现系统以及数据登记。

2)影响力管理服务。对于机构知识库来说,构建的核心目标以及作用,是为了强化科研人员和机构的作用,提升他们的影响力,让科研以及学术交流朝向更加多元化的方向发展,实现科研以及学术的综合性目标。针对传统学术影响的评价,大部分都是通过同行间的评价,以及对学术的引用来进行评价的。当前比较盛行的综合影响力评价要素,不但有学术引用,还有对学术文献的下载运用和来自社会各界的评价等。在新一代知识库中,其集成主要有引用的计量,引用的频次,科研者的H指数以及社会影响力等要素。

2 机构知识库核心技术表述与分析

2.1 关联数据中的技术

1)规范化描述实体。想要让用户准确以及迅速地找到他们想要的资源,在新一代知识库中,就结合了语义化访问服务。对此,应该规范化描述实体,避免HTML格式的描述。机构知识库主要是根据研究的主题,以及学科领域来划分知识结构的,在每一个研究主题以及学术领域中,还对其划分成多个专题。针对专题而言,能够按照文献的类型,以及别的索引方式加以组织。在各个专题内容中,有很多类型的数据集,其中包括期刊论文、学位论文以及专利等。

2)语义化资源实体。基于关联数据的运用,在机构知识库中,能够实现语义化资源实体,为其提供相应的前提。主要是结合实体目标间的联系,来分析机构知识库中有关实体目标资源的概念,并对其进行明确,深层次地展开分析以及描述。在这些资源概念中涉及很多内容,有相关概念以及交叉概念等。对此,应先建立知识库的资源本体,然后再分析概念之间的联系,增加类的属性,进而构建本体与语义之间的联系。与此同时,关联数据还能够促使机构知识库建立更多信息资源,也不完全限制在资源实体信息中。在这之中,能够实现科研人员、科研成果和所属机构等信息的增加,还能找到任意信息描述下的数据源,给予它们更多分布式数据源,在此基础上加以整合,形成关联访问,以便更好地为用户服务,提供给他们资源发现服务。

2.2 关联数据实现的功能

1)识别实体目标、抽取实体关系。在机构知识库中,关于实体目标就非常多,且它们之间的关系也十分复杂。针对相同的实体目标以及关系,想要实现识别以及抽取,是非常关键的问题。根据多种关联数据源来说,将其放在同一个实体,比如地名等,通过多种URI进行标识,将会导致其标识的目标以及实体达不到一致。想要有效优化这一问题,在设计时可以构建一个将作者和知识资产作者进行排序的程序,主要是利用人工分辨的方式,来达到作者及其成果的一致关系。这个程序能够将作者上传到机构知识库中的内容进行储存,然后对其分配URI标识符,可以实现自动发送认领邮件的目的,接着再让作者进行确认,来判断这个是否为其作品,并自行选择排序。虽然这个方式的效率相对较低,而且认领时间也比较长,但是从现阶段研究层次方面来看,该方式的效果是非常明显的,还大幅度地增加了实体目标识别的准确度。同时在机构知识库中,还能够设计别名管理程序,针对相同的人名实体,在知识库中还设立了各种形式的别名,可以有效处理人名实体的识别问题。做好前期的处理工作,在机构知识库中,抽取实体目标以及关系,结合知识库中的元数据来描述字段和关系,以此为前提加以分析。

2)选取关联数据源、映射各种词表间。对于机构知识库来说,其中的数据包括期刊论文资源、教材资源以及会议论文等资源,想要把其中的元数据和外面的关联数据连接起来,应该科学选取关联数据源,这是非常关键的内容。现阶段在互联网中关联数据是非常多的,但是大部分都为综合性的公共数据集。对于不同的关联数据而言,其来源也会通过各种关联词表来实现,想要最大程度地语义化元数据,为用户展现更加清晰的数据视图,应该对各种术语进行转换,使其达到相同的目标模式。在进行转换时,应该按照词表来把数据进行映射,使其成为本地的数据模式,除此之外,也应该按照人工产生以及数据挖掘等方式获取的映射规则,在此基础上实行转换。

3 结语

综上所述,基于机构知识库内部,将其与不同知识库资源进行有效的融合,有助于更好发展新一代知识库,达到个性化服务的目的。基于此,应当积极引入关联数据技术,进一步挖掘知识库所隐藏的价值,就新一代知识库的进步来说,这有着很大的现实意义。

猜你喜欢

数据源知识库关联
不惧于新,不困于形——一道函数“关联”题的剖析与拓展
“一带一路”递进,关联民生更紧
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
Web 大数据系统数据源选择*
奇趣搭配
基于不同网络数据源的期刊评价研究
智趣
高速公路信息系统维护知识库的建立和应用
基于Drupal发布学者知识库关联数据的研究
基于真值发现的冲突数据源质量评价算法