APP下载

基于Neo4j图数据库的英语语法知识图谱构建策略研究

2022-08-17啜春红

自动化技术与应用 2022年7期
关键词:词类英语语法图谱

啜春红

(南京机电职业技术学院,江苏南京 211135)

1 引言

知识图谱是人工智能技术的一种新型应用形式,能够结构化地展示实体与概念之间的关系,帮助人们对某一学科中各种知识所构建起来的知识体系有一个全面的了解[1-2]。石英杰等人将知识图谱应用于搜索引擎设计中,为用户提供更具深度的互联网信息[3],赵一鸣等人建立了中文通用知识图谱——CN-DBpedia,以中文维基百科、互动百科、百度百科为数据来源,综合运用语义推理、语义融合等技术建立起一套中文知识图谱[4]。将知识图谱应用于英语语法教学中,不仅有助于学习者精准掌握语法知识结构,还有助于全面掌握语法知识关联,进而推动英语语法学习的智能化、全面化、精准化,在提高学习效率的同时减轻学生的学习负担[5-8]。

2 英语语法数据获取

在本文所建立的英语语法知识图谱中,英语语法的数据来源分别为百度百科和《现代英语语法》(商务印书馆)、《薄冰英语语法第4 版》、《外研社英语语法大全》三个英语语法书籍,并将其内容进行数字化处理,一共获得106 个语法结构及35个语法知识点名称(15个句类知识点名称、20个词类知识点名称),具体数据及说明如表1所示。

表1 语法书籍数据说明

3 知识图谱设计

3.1 实体设计

知识图谱的实体设计具体包括词类知识点名称、词类知识点概念、词类知识点举例词汇、句类知识点结构词汇四项,各项的具体含义如表2所示。

表2 图谱实体类别及说明

3.2 关系设计

本文所设计的英语语法知识图谱共包含18 种语法关系,关系类别及相关说明如表3所示,其中前10 组关系类别如表3所示。

表3 知识图谱实体关系类别设计及其说明

4 数据导入Neo4j

Neo4j 是当前得到广泛应用的一种图形数据库,该数据库具有图形处理和图形存储两项主要功能[9]。相比于单纯的关系型数据库来说,Neo4j 图形数据库所支持的Cypher 查询语言和属性图模型可大幅提升查询效率,支持大规则数据查询[10]。该图形数据库还能够通过结点和线段等简单的图形样式来展现不同知识实体之间的关系结构,知识数据的展现形式明确且灵活[11-12]。Neo4j还兼容Python接口,可与基于Python 语言所编辑的英语学习系统无缝结合,降低系统编程难度[13]。

首先将知识图谱中的的4 个实体表及18 个关系表转换为CSV文件,在此基础上通过Neo4j图数据库中的LOAD命令批量导入CSV 文件[9],并将18 个关系直接命名为将来进行式、过去进行时、现在进行式、将来完成时、现在完成时、过去完成时、一般将来时、一般过去式、一般现在时、状语从句、定语从句、虚拟语气、被动语态、倒装句、祈使句、举例、概念、包含。

5 知识可视化

5.1 知识图谱实验的基本方法

本文通过Py2neo连接Neo4j图数据库,采用建立节点和建立关系的方式针对语法题目实施向量设计,核心代码如下:

# 建立节点

test_node_1=Node("is",name="VBG")

test_node_2=Node("is",name="is")

test_graph.create(test_node_1)

test_graph.create(test_node_2)

# 建立关系

node_1_call_node_2=Relationship(test_node_1,′现在进行时′,test_node_2)

# node_1_call_node_2[′count′]=1

node_2_call_node_1=Relationship(test_node_2,′一般现在时′,test_node_1)

# node_2_call_node_1[′count′]=2

test_graph.create(node_1_call_node_2)

test_graph.create(node_2_call_node_1)

以如图1所示的题目为例,该题目的答案是“is reading”,经过词性标注后可得到如图2所示的内部匹配结果。

图1 匹配题目示例

图2 知识图谱基本原理

5.2 知识图谱整体形式

在向Neo4j 图数据库导入CSV 文件后,Neo4j 会针对知识图谱数据加以数据化展示。本文所设计的英语语法知识图谱共包含知识点实体1103 个,在图谱中以结点的形式加以展现,其中包含69 个句类知识点结构词汇、994 个词类知识点举例词汇、20 个词类知识点概念、20 个词类知识点名称。局部英语语法知识图谱如图3所示,4 个实体类别分别以4种大小的结点加以表示,各实体之间的关系标注于各实体之间的连接线上。

图3 局部英语语法知识图谱

5.3 知识图谱部分功能

在需要查看图谱细节信息的情况下,用户可以直接输入Cypher语句即可进一步查阅实体的内容以及与其他实体之间的关系。在英语语法图谱中,由于句类、词类两种知识点分别以边和点的形式加以存储,因此需要通过不同的语句实现查询。以句类知识点“现在完成时”的查询为例,该知识点在英语语法图谱中的查询结果如图4所示。

根据图4可知,在英语语法图谱中的完成时部分共包含6个常见语法,用户可以直观查阅有关于“现在完成时”的各种词汇。另外,若根据图谱中箭头的方向持续读取,还能够获取较为完整的“现在完成时”句型,比如“has+not+VBN”、“has+been+done”等,其中动词的过去分词通过VBN 加以表示。

在针对“现在完成时”进行查询的过程中,图谱还展示了“将来完成时”和“被动语态”等相关句式,可以帮助用户发现现在完成时与被动语态之间的关联,即“have+been”句型,该句型既可以用来表达现在完成时,也可以用来表达被动语态。

6 结束语

了解语法结构和建立语法意识是英语语法学习的关键,英语语法知识图谱可以用来对语法的知识点网络加以直观地展示,帮助用户明确各知识点之间的区别和联系。另外,图形化的图谱界面可集中展示重要信息,帮助用户明确学习重点,减轻用户学习英语语法的压力与负担。在实际应用中,开发者还可以将本文所设计的英语语法图谱与基于Python 语言所建立了英语在线学习系统结合起来,以Web浏览器的形式实现用户对英语语法图谱的访问,进而在无需安装PC 客户端的情况下实现对英语语法知识图谱的在线查阅。

猜你喜欢

词类英语语法图谱
基于图对比注意力网络的知识图谱补全
次要任务对词类判断任务中权力空间表征激活的影响*
中文词类信息在副中央凹中的加工*
2020年高考英语语法填空命题分析
绘一张成长图谱
英语语法教学策略谈
古代汉语“词类活用”的研究综述
大学英语词类教学研究及启示
图表
来,我们说说英语语法