APP下载

面向大数据的图书馆单元信息知识服务系统研究

2017-11-09张娟王向辉付然孙晓琳

现代情报 2017年10期
关键词:大数据

张娟 王向辉 付然 孙晓琳

〔摘要〕[目的]为了实现海量数据中信息的知识组织,促进单元信息和文献信息内容的知识关联和知识发现,构建单元信息知识组织体系;[方法]以养生领域内的领域本体、文献信息等知识资源为基础,构建养生单元信息知识服务系统;[结果结论]“养生单元信息知识服务系统”(以下简称“养生知识服务平台”)是单元信息知识组织体系建设的重要应用示范,提供语义检索、知识浏览、知识推理和知识发现等服务,实现大数据环境下“单元信息知识组织体系”的有效利用;[局限]文献资源的单元信息抽取及分析涉及人工智能、计算机处理等相关技术,技术实现有较大难度。

〔关键词〕大数据;单元信息;养生知识;知识关联;知识发现

DOI:10.3969j.issn.1008-0821.2017.10.008

〔中图分类号〕G252〔文献标识码〕A〔文章编号〕1008-0821(2017)10-0049-04

〔Abstract〕[Objective]In order to realize the knowledge organization of the mass data,and to promote the knowledge and knowledge discovery of the unit information and the content of the document information,it is necessary to construct the knowledge organization system;[method]Using the domain ontology and documents and other library knowledge resources in the field of health as the foundation,constructed the Health unit information knowledge service system;[Conclusion results]“Health unit information knowledge service system” (hereinafter referred to as the“health knowledge service platform”)was an important application of unit information Knowledge organization system,to provide semantic retrieval,knowledge browsing,knowledge inference and knowledge discovery service,and promote the effective use of the“unit information knowledge organization system”in the big data environment.[limited]The unit information extraction and analysis of the literature resources involved artificial intelligence,computer processing and other related technologies,to achieve greater difficulty.

〔Key words〕big data;unit information;health knowledge;knowledge association;knowledge discovery

大數据环境下,随着文献信息资源的快速增长,图书馆传统的文献组织方式已经不能满足用户的知识性需求,面对大量信息资源应该进行组织加工方法的变革与创新,从对文献为单元的组织加工转变为对单元信息的组织加工[1],借助计算机自动技术进行单元信息进行挖掘与组织。针对大数据背景下用户对知识信息的深层分析与潜在知识提取需求,信息服务工作必须进行数字资源的智能化收集组织、分析挖掘、整合处理。精准化的知识信息服务工作,需要通过对用户的信息需求分析,对专业领域的知识数据进行有效挖掘和分析,建立专题库,并充分利用大数据的分析和汇总,开发针对性的服务内容,提供精细化、个性化内容增值服务。本文选取了“养生知识”作为主题的资源库建设,讨论如何整合关联数据和资源,通过挖掘和组织、评价,将传统数据资源整合成一个全面、开放式的关联知识网络,以满足用户和社会各界的需求。

1单元信息知识服务系统建设总体思路

单元信息知识服务系统是基于 “面向大数据的单元信息组织体系研究”的理论应用而研发的系统平台,主要目的是实现图书馆馆藏文献单元信息的知识服务。“养生知识服务平台”以养生知识领域的文献单元信息为知识组织基元,以单元信息链接为枢纽来构建知识组织的系统,其组织过程一般经历文献信息的单元信息抽取与标注 、养生文献库、单元信息库、养生知识库的构建。平台不仅针对领域内图书馆的后台构建和前台呈现,同时也在前台向用户开放,与用户一起实现知识组织、构建,系统整体构架如图1所示。

文献库由养生领域内的图书、报纸、期刊等文献构成,对这些文献进行单元信息的标注,通过面向机构的后台及面向用户的前台提供单元信息的组织、加工功能,进行单元信息的知识组织与管理。这是对图书馆以文献整体为单元的组织加工体系进行创新,在揭示文献外形特征和整体内容的基础上,探索文献信息资源的深度加工和利用方法,深入到文献内部,揭示文献中所含的知识信息单元,并实现知识之间、文献之间的关联。实现图书馆信息加工实践创新,选择主题进行单元信息知识组织,形成单元信息知识库,使隐性信息显性化,使知识得到有效利用。endprint

单元信息知识库的建设主要包括:①主题资源分析:结合资源特色及用户需求,确定特定资源为主题进行单元信息知识库建设。②单元信息抽取:结合资源类型设计出各种文献类型的单元信息抽取方法。资源类型包括图书、期刊、报纸3种资源形式。③建立单元信息知识库,针对各类文献的单元信息选择合适的资源组织方法,如基于主题图和元数据的资源组织。

2系统关键技术

信息组织和知识组织涉及到一些最新的理论和技术,如本体、语义网、主题图等技术方法,其应用实践主要依靠人工智能、计算机处理等技术的实现,从实践上来说具有一定的挑战。文献资源的单元信息分析及抽取有较大难度,如某一专题的文献资源包含多种类型,针对该领域的资源收集和单元信息的定义需要领域专家的参与,各类文献单元的抽取需要靠相关技术实现。

21本体知识库构建

本体知识库是建立单元信息知识服务系统的基础。所谓本体是共享概念模型的明确的形式化规范说明 [2]。养生本体知识库是存储并管理与养生领域的相关概念,以及概念之间的相互关系,其目的是为养生知识的组织标引提供支持。将本体引入知识表示,不仅可以用术语或概念對知识进行表示,同时揭示这些知识之间存在的内在关系。利用本体表示的知识通过类属和语义进行组织和关联,再利用这些知识进行推理,从而能很好地满足读者学习的需要。本系统平台的本体来源于用Protégé软件已经建立的数据导入到本知识库中,并提供本体的概念和关系添加、修改操作。Protégé软件是斯坦福大学医学院生物信息研究中心基于Java语言开发的本体编辑和知识获取软件,或者说是本体开发工具,也是基于知识的编辑器,属于开放源代码软件。这个软件主要用于语义网中本体的构建,是语义网中本体构建的核心开发工具。Protégé提供了本体概念类、关系、属性和实例的构建,并且屏蔽了具体的本体描述语言,用户只需在概念层次上进行领域本体模型的构建。

22单元信息标注

单元信息的标注是单元信息知识库建设的关键。智能自动标注在本领域己经成为一项应用较多的计算机语言技术,自动标注包括词语标注、短语标注、句法标注[3]。由于语言本身包含信息的复杂性,使得标注的内容、对象可以在语法、语义、语用等各个层次上进行,标注的内容和程度,从根本上决定了从文本中可以提取出的信息内容和信息粒度,也决定了进行文本内容计算的对象、方法。比如对于文本快速准确的标出单元信息,并且将这些信息单元及其属性等标出,信息单元之间的多种关系也需要标注,标注后的文本以一定格式保存为便于计算识别的语料。这些复杂的标注是一个费时费力的工作,所以开发一个界面友好的辅助标注工具是非常必要的,并且是建设的需要。标注工具可以提高标注者的效率和标注质量,同时结构化的输出是面向内容计算的需要。标注系统的研究和开发还可以为内容计算提供方法和服务,可以为自动标注系统的研究提供方法和规律。所以,研究标注系统具有非常重要的意义和作用。本平台语词标注以自动标注与人工标注相结合,以确保标注的准确性和科学性。

23索引设计

数据库设计好坏的重要标准之一是具有快速的响应速度,在本项目大数据处理的前提下,提升查询响应速度也是本项目数据库的关键技术之一。索引是数据库提升查询性能最便捷、简单、有效的方法之一。本项目使用 SQL Server2008数据库进行索引的设计和优化数据的查询性能。索引允许程序迅速地找到表中的数据,而不必扫描整个数据库 。索引可以大大加快数据检索速度,加速表与表之间的连接;使用 ORDER BY 和 GROUPBY 子句检索数据,可以显著减少查询中分组和排序的时间;可以在检索数据的过程中使用优化隐藏器,提高系统性能;通过创建唯一的索引,也可以保证数据记录的惟一性。同时也要注意创建索引和维护索引需要耗费时间与占用物理空间,这种时间随着数据量的增加而增加,当对数据进行更新的时候,索引也要动态地维护[4]。

24可视化显示

数据可视化是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。数据可视化是通过关系数据表来观察和分析数据信息的方式,使人们能够以更直观的方式看到数据及其结构关系,发现数据中隐含的信息。数据可视化的基本思想是将数据库中的每个数据项作为一个图形元素表示,例如,点、矩形条、扇形片等,大量的数据构成数据图像,同时将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析[5]。本项目采用网络图的可视化展现方式展示数据点之间的错综复杂的相互关系,也是一种常见的大数据展示方法。以网络图展示语义关系中的相关词、上位词、属性、下位词、应用于、实例、属性值、对象属性、应用方法等数据,可以帮助读者了解养生知识数据的结构、关系以及动态性。

3养生知识服务平台功能实现

系统分别面向机构用户和读者用户开发了后台管理系统和前台检索与上传系统。后台管理系统其主要包括对文献库的上传、单元信息库的标注、知识库的组织管理及对前台用户上传标注内容的审核。用户前台则实读者对单元信息的检索显示以及文献上传。由于用户的专业水平不可见且水平不一,所以需要“机构”管理员对其内容进行审核后才能进行入库和显示。

31文献库上传

文献库的构成是由图书馆内的图书、期刊、报纸数字资源库中挑选的与养生内容相关的文献。上传获取的信息包括文献类型、题名、作者、主题、出版信息,支持PDF和txt文件。“主题”为前台主题浏览和知识检索的类别所属。其在养生原理、养生方法和养生应用下设二级主题分类和最底层的主题词。如养生应用下设时节、人群、部位与疾病,时节分春夏秋冬,再分别冠以主题词,为标注和片段信息的组织建立最基本的关系。本平台实现数字文献的自动信息获取和整体文本上传,这大大减少了图书馆在对信息组织再利用的过程中所要消耗的时间和精力。endprint

32单元信息标注

单元信息标注是养生单元信息知识库建设中的关键环节。在文献库中进行片段的选择,在此部分进行分页展示所有片段的列表,可对片段进行编辑,重新划分片段,标注主题词,主题词来自于本体知识库。通过本体库中主题词之间的关系实现单元信息的语义关联。平台的标注分为自动标注、自动推荐备选标注与手动标注。单元信息自动标注和推荐备选标注是计算机自动化的智能分析体现,是基于信息单元之间的语义分析的结果。单元信息标注过程可以充分应用标注者专业知识结构背景,也是平台的知识关联网络的构建过程,其本身就是对知识的再组织再创造、是增值管理和有效利用的最佳方式[6]。单元信息标注本身就是在各单元信息之间及每个单元信息内部建立语义关系,体现了知识之间的语义关联,也为用户知识利用、发现和再组织提供了最直接帮助[7]。

33本体知识库管理

本体知识库作为单元信息的标注工具,其目的是建立领域本体。本体知识库的管理分为主题分类组织、主题标签建立、语义关系生成三部分。其中主题分类为主题概念的类目体系等级关系的建立,随时根据系统的需要进行主题概念的增加、修改、删除。主题标签是在类目体系的基础上进行主题词的添加、修改和删除操作。最后主题概念之间可以进行语义关系的生成。语义关联包括相关词、上位词、属性、下位词、应用于、实例、属性值、对象属性、应用……方法的语义关联。语义关联展示了所有主题词的列表,可对主题词进行编辑、添加、删除操作;对主题词编辑语义关系;根据主题词的类别筛选出主题词和当前主题词进行关联,主题词的关系在前台的浏览的可视化分析图表中展示。

34用户管理

包括前台用户注册和后台用户上传审核。对于图书馆这样的公众服务机构,有数十万的读者用户群,而其中不乏大量愿意贡献自己智慧参与到“养生知识服务平台”的知识库的构建的用户,为了更大范围的建设本平台将知识库建设对用户进行开放。用户注册采用互联网用户常规做法,用邮箱作为唯一ID,通过验证码进行验证激活。同时将手机号也作为注册的必要信息进行填写,也可采用手机验证码的方式,邮件与手机号在原理上是相同的。登陆时用用户名和密码进行登录。用户上传的流程与“机构”后台的流程相同,但是构建完成后需要在“机构”后台进行审核,审核后才能够成为平台知识的一部分。用户在前台上传文献、截取片段信息并对片段信息进行标注后提交到后台,后台可进行文献内容的整体查看,确认是否通过审核。同时还可以查看片段信息的标注内容。

35知识检索与可视化显示

用户对单元信息组织系统的知识检索,实际就是利用知识关联原理,在知识库中获取知识单元,或同时在知识库直接获取所需的单元信息,并通过单元信息的关联关系实现新知识的衍生。通过单元信息检索,用户不但能跨各类别的单元信息。而且能从单元信息库中直接获得自己所需要的单元信息,还能基于关系网络发现更多密切相关的单元信息知识,进而使用户的知识需求得到全面满足。检索分为知识库浏览检索和主题词检索两种方式。通过对知识库主题概念分类体系的浏览,可以查看主题词的详细信息和主题词的可视化分析图表以及相对应地单元信息。可视化以折线、 曲线、曲面、柱型和三维图形的方式展示数据,可以帮助了解数据的结构、关系以及动态性。对在语义关系中的相关词、上位词、属性、下位词、应用于、实例、属性值、对象属性、应用方法进行可视化图谱显示。如高血压的可视化分析如图2所示:

点击任意主题词则可显示相关单元信息,同时在系统中可对任一主题词进行切换查看,依据主题词之间的关联关系实现单元信息之间的语义关联。

主题词检索方式是对单元信息的直接检索,不仅仅可以可按照关键字进行检索,还可以通过关键字和类别进行高级检索,检索出文献片段和相关的主题词信息。类别的限定为季节、年龄、性别、部分与疾病,同时还可以进行二级类别限定如对季节里的具体节气可进行限定,能够让用户十分精准的检索到所需要的内容。检索结果按单元信息内容、主题词和来源进行展示,同时可以进行主题词内容切换,查看对应单元信息内容。

4结语

图书馆单元信息知识服务系统将知识组织的单位从文献单元深入到文献中的单元信息,海量文献中所包含的单元信息及信息间的相关关系,这将产生极大的信息增值,从而大大推进图书馆对知识的获取和利用,促进知识创新,推动知识应用的重大发展。 基于单元信息的养生知识服务平台,不仅实现了对文献的单元信息提取和标注,而且实现了单元信息间的主题链接和语义关联,进而形成知识网络和语义网。这必将对基于大数据的图书馆的知识发现、 挖掘和创新提供实践应用支持[8]。“养生知识服务系统”是对“面向大数据的单元信息组织研究体系”理论应用的实践,整体还不够全面,技术上也还受到很多制约。今后将继续研究和实践,争取将该项目落地实践并向用户提供知识服务。

参考文献

[1]王薇.基于关联数据的图书馆数字资源语义融合研究[D].南京:南京大学,2013.

[2]杜文華.本体的构建及其在数字图书馆中的应用研究[D].武汉:武汉大学,2008.

[3]徐赳赳,Jonathan J.Webster,复句研究与修辞结构理论[J].外语教学与研究,1999,(4):16-22.

[4]邓小善,数据库索引设计的研究[J].中国科技信息,2006,(2:2):148-152.

[5]韩卫国,王劲峰,王海起,等.基于数据可视化的交通流量分析[J].武汉理工大学学报,2004,28(5): 668-670.

[6]姜永常,杨宏岩,张丽波.基于知识元的知识组织及其系统服务功能研究[J].情报理论与实践,2007,(1):38-40.

[7]文庭孝.知识单元研究述评[J].中国图书馆学报,2011,(9):75-85.

[8]于良芝,攀振佳,程乐天.信息单元再认识[J].图书馆杂志,2016,(7):4-11.

(本文责任编辑:孙国雷)endprint

猜你喜欢

大数据
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路