面向关联关系的特定领域图数据库检索系统
2019-11-11杨政
杨政
摘要:随着检索系统技术的发展方向逐步向检索实体的关联关系发展,传统的关系型数据库难以满足需要,为高效存储和方便查找数据间的关系,图数据库应运而生。该文阐释了图数据库的基本概念,基于图数据库对关系处理的优势,设计构造面向关联关系的特定领域检索系统框架。该系统具有索引构建简化、检索速度快、检索效率高、数据更新快速等优点,但是也存在数据预处理要求高的缺点。除此之外,图数据库在全文检索系统中还面临着大数据量和数据动态变化等带来的挑战。
关键词:图数据库;关联关系;检索系统;关系型数据库;检索效率
中图分类号:TP391 文献标识码:A
文章編号:1009-3044(2019)27-0010-03
Abstract: With the development of retrieval system technology gradually developing to the association relationship of retrieval entities, traditional relational databases are difficult to meet the needs. For efficient storage and easy to find the relationship between data, the graph database emerges as the times require. This paper explains the basic concept of graph database, based on the advantages of graph database for relational processing, and de-signs a domain-specific retrieval system framework for association relations. The system has the advantages of simplified index construction, fast retrieval speed, high retrieval efficiency and fast data update, but it also has the disadvantage of high data preprocessing requirements. In addition, the graph database faces the challenges of large data volume and dynamic data changes in the full-text search system.
Key words: Graph database; Association relationship; Retrieval system; Relational database; Retrieval efficiency
1 引言
在信息检索技术高速发展的时代,各大检索系统在互联网应用行业都能独占鳌头,不仅因为检索系统能带来大量的数据和知识,而且人们的生活以及技术的发展越来越离不开检索系统技术[1]。现代检索系统大多建立在关系型数据库的基础之上,通过用户输入的检索词返回用户需要查询的网页、图片、音视频等数据资源[2,3]。但是检索系统技术由于关键词能提供的信息量少、查询数据库大等因素,在返回给用户的信息中还是存在不全面、不准确或是查询速度慢的问题,这也是检索系统技术的未来改进方向。
现如今用户对于检索系统的需求渐渐转变为对其中关联关系的需求。而关系型数据库存储存在的掣肘,一方面是存储内容是数据而不是知识,这就导致了用户对于检索系统返回的结果还需要进一步的分析加工。另一方面,关系型数据库存储的数据量越大,对查询速度的影响就越明显,关系型数据库难以适应有实时价值的数据关系。因此,考虑到近年来发展迅猛的图数据库在存储关联关系数据上的优点,本文分析设计了基于图数据库的检索系统。
2 检索系统发展趋势和图数据库
在知识体量爆炸增长的现代化社会,检索系统的发展也不再仅限于简单的搜索引擎返回的页面、图片等,人们更需要从检索系统中获得更符合个人需求的更多有价值的知识,而不在仅仅是一个网页的文本内容。而这些知识的表现方式大多是关联关系。因此,检索系统的发展势必要更多的关注于关联关系挖掘、关系存储、知识表示和关系推理等[4]。
2.1 自然语言理解
用户检索输入的内容理解是检索系统性能提升的一个重要方面。受检索输入长度、语言歧义现象等影响,用户的检索意图和想要获取的内容都难以符号化描述的理解。
2.2 关系挖掘
面向关联关系的检索系统还需要解决关系挖掘的问题。现在的网络信息绝大部分是以文本或音视频等方式存在的,难以挖掘结构化的知识以及知识间的关系。
2.3 关联关系分析和推理
在知识库已经建立完成的基础上,对关联关系的分析和推理结果也是十分重要的,这决定了返回用户的检索结果是否能满足用户需求。
综上三点,用户对检索系统的需求将更多地倾向于对知识的获取,而关联关系分析推理能更好地满足这样的需求。因此可以说,未来检索系统的发展将与“关系”密不可分。
3 基于图数据存储的特定领域检索系统架构设计
由于在特定领域中的数据一般为结构化或半结构化的数据,且涉及的数据体量较小,易于处理。除此之外,建立在专业领域的检索系统更容易获得查全率和查准率的提高,并且数据库中的信息更精细化。因此在本文中以基于图数据存储的特定领域检索系统为例,阐述其架构设计。
传统的基于关系型数据库的检索系统架构图如图1所示。一般将数据存储在文本数据库中,然后对数据库中的文本数据提取文本中的词汇,然后依据提取的数据对文本进行索引。在用户检索的过程中,需要根据用户输入的查询词等根据索引库查找文本,然后对检索出的文本进行排序,将排序后的文本返回给用户。在接下来的过程中,还需要根据用户的反馈不断改进检索结果。
如图2所示,在基于图数据库的特定领域检索系统架构中,与传统的基于关系型数据库的检索系统不同之处有四。其一是数据的存储内容与一般的检索系统不同,其二数据的存储结构是基于图的理论,其三是索引的构建不同,其四是检索反馈的结果和方式不同:
1)数据存储内容
可以看出,由于图数据库的存储特点,该架构对数据源的预处理要求较高。由于图数据库存储的是实体的属性以及关系的属性,因此在储存之前需要對采集的数据源进行预处理。不是所有采集的数据都可以直接使用,而是需要将其进行结构化的预处理,转换成存储的节点和关系的属性。因此图数据库存储的内容与一般关系型数据库有很大区别,对文本的预处理要求较高。
2)数据存储结构
图数据库的存储结构是基于图论理论,因此在数据库中关系是图的重要组成部分,没有关系的联结,图中的节点就是互相孤立存在的。
3)索引的构建
图数据库的索引构建方式也与一般的关系型数据库不同。根据图论,可以将图数据分为若干个子图,然后对子图的内容进行抽取概括,形成索引。但是在特定领域检索系统中,数据规模一般不大,所以可以简化索引的构建。
4)检索反馈
在该架构中,不再对返回的文本进行排序,而是需要对节点进行排序,最相关节点则重要度越高,然后通过节点的关系及关系属性为相关联的节点加权,以此来进行返回结果的排序。
在返回节点和关系的基础上,还需要对返回结果进行文本处理,以便于阅读和理解的方式呈现给用户。由于节点和关系数据的结构化,因此呈现方式可以多样化,不仅是文本,也可以是图表等。
接下来根据查询结果的用户反馈情况,对排序结果进行优化以及对查询结果进行增删。用户点击率高的查询结果节点要赋予更大的权重并返回更多的关联节点,而对于用户点击率低的查询结果节点则减少权重并较少该节点的关联节点。
除此之外,该架构还需要不断更新图数据库内容以满足用户查询需求。图数据库的更新比关系型数据库更为便捷,因为图的插入操作开销较小。图数据库插入一个节点或关系并不会改变原有的建模方式,只需要预处理的过程中将数据转换为预先建立的结构即可,而关系型数据库更新数据则需要改变数据库的架构。
4 面临的挑战
在对特定领域进行检索系统的设计中,使用图数据库能带来很多优势。首先,用户对学科领域内容的检索期待的结果一是知识内容,二是相关联知识,而图数据库则是对关联关系的分析和查找应运而生的。第二是由于使用了简单高效的Chyphe作为查询语言,因此图数据库可以提升查询的速度。第三是由于领域知识数据基本上是结构化或半结构化的,因此图数据库中节点和关系的属性建立就比较完备,也易于阅读和理解。
但是对于基于图数据存储的特定领域检索系统,尽管对于关联关系的挖掘和实体的查询速度都会有所提升,但是仍面临着以下挑战:
1)数据内容的完整性。由于是对特定领域的知识进行检索,在数据量规模不大的情况下需要对数据内容的完整性做出要求。最理想的情况是包含该领域全部的信息,但是这是十分困难的,因为领域存在交叉性和复杂性。
2)数据的实时更新。对于特定领域的检索系统来说,数据的内容要保持实时的更新,因此对于节点和关系的增、删、改等操作要进行较完备的定义。
除了利用图数据库进行特定领域检索系统外,还有许多基于图数据库对全文数据进行检索的研究。
由于检索系统技术的面临着庞大的数据体量,因此利用图数据库进行全文检索系统的研究仍处于不断探究的过程中。庞大体量的信息进行图存储就必须面对大图数据,其中所包含的节点和关系规模都处于数十亿的级别。但同时其对于许多应用都能带来益处,例如搜索引擎发展、电商广告推送、路径规划等。对于大图数据的管理也面临着诸多挑战,例如:
1)数据规模庞大且复杂,不仅包含了大量的节点以及节点属性,而且包含了复杂的关联关系。
2)数据灵活性大大增加,由于包含的非结构化或半结构化的数据,因此各节点和关系的属性够各不相同。数据的异构性导致难以存储为固定的模式。
3)数据时刻处于动态变化之中。随着各类数据的不断更新变化,图数据存储的内容也在时刻发生着变化。变化的内容包括节点和关系的属性变化、节点的增删、关系的增删等。
4)大数据量带来查询操作的复杂性。由于图数据量大、复杂、动态变化的特性,对大图数据的查询操作也带来了困难。大图数据的并行分布存储使得查询首先需要全局的图信息,在其中进行分块查找,然后查询子图数据。因此对大图索引的建立也提出了要求。
值得一提的是,很多学者为了解决以上这些问题会将图数据库与其他的关系型或非关系型数据库结合起来使用,在内存中使用图数据库的形式,查询速度得到了提高,同时也能降低存储的复杂度,因此这种方法也取得了较好的效果。
5 结语
本文讨论了基于图存储的检索系统,以基于图数据存储的特定领域检索系统为例,分析了系统构建框架和系统设计模块,该框架具有检索效率高、速度快、易于更新等优点,同时也存在更新数据质量要求高等不足之处。最后本文分析了在特定领域检索系统和全文检索系统中,图数据存储带来的优势和面临的挑战。
总的来说,世界的发展使事物之间的联系越来越紧密,组成许多的关系网,带来更多的关联关系。因此未来检索系统技术将需要为用户提供越来越多的关系分析,图数据库的加入会更好地解决这个问题。图数据目前在存储管理上主要是面对大数据量和实时更新的要求仍有困难,这也是将来该系统的改进方向之一。
参考文献:
[1] 邱胜海,王云霞,樊树海,贾晓林.云环境下图数据库建模技术及其应用研究[J].计算机应用研究,2016,33(3):794-797.
[2] 廖理.基于Neo4j图数据库的时空数据存储[J].信息安全与技术,2015,6(8):43-44,56.
[3] 周美丽,白宗文.基于形状特征的图像检索系统的设计[J].国外电子测量技术,2015,34(06):82-84.
[4] 胡德华,种乐熹,邱均平,李俊.国内外知识检索研究的进展与趋势[J].图书情报知识,2015(03):93-106.
[5] 项灵辉,顾进广,吴钢.基于图数据库的RDF数据分布式存储[J].计算机应用与软件,2014,31(11):35-39.
[6] Cihan Kü?ükke?eci,Adnan Yaz?c?. Big Data Model Simulation on a Graph Database for Surveillance in Wireless Multimedia Sensor Networks[J]. Big Data Research,2018,11.
【通联编辑:梁书】