古诗词文化交融的学习教育平台建设研究
2024-05-16梁艺馨翟洁李东睿熊瀚锐
梁艺馨 翟洁 李东睿 熊瀚锐
摘要:针对当前古诗词及相关领域知识数量庞大且关联性较弱的情况,本文研究了古诗词知识图谱可视化的相关技术。本平台的搭建包括可视化图谱展示、智能问答、古诗分类、诗人行迹等核心模块。本文给出了相应的关键技术和实现算法,并利用以上技术搭建了一个高交互性的可视化系统。该系统以图谱形式对古诗词及相关知识进行可视化展示,为学习者提供了一个交互性强、趣味性高的古诗词学习可视化学习教育平台,具有较高的教育教学价值,同时可以为相关领域的学习者提供一个针对性强的古诗词知识库。
关键词:古诗词;知识图谱;可视化;文本识别;意象分类
众所周知,古诗词是中华文明五千年的传承,是每个中国人生长的土壤,然而,在全面智能化的今天,国内关于古诗词的知识图谱仍不完善,导致古诗词和传统文化的知识网络还比较零散,缺乏有机结合。此外,目前还没有一个完整的、收录并分类总结古诗词意象的知识库,也不存在可以将古诗词自动分类的系统。
为了解决上述问题,本文基于可视化与自然语言处理技术,创建了一个基于古诗词和其他传统文化交融的学习教育平台,本平台具有可视化图谱展示、智能问答、古诗分类和诗人行迹等四个核心模块,可以有效地解决学习者在阅读和欣赏古诗词时由于相关知识缺乏,无法进行良好的学习和记忆,以及学习者难以在大量的古诗词和传统文化数据中高效获取所需信息的问题。
一、实现可视化图谱的相关技术介绍
(一)古诗词领域知识库构建
本文以权威的古诗词网站和专业古典文学书籍为基础,创建了对象-古诗词类别库,基于事件间的因果逻辑的自然文本处理技术,并结合事理知识图谱的构建创建了古诗词-事件知识库,将上述两个知识库融合为描述对象-古诗词-事理库。
(二)历史沿革事理图谱子图构建
将事理知识图谱和智能化技术运用于古诗词、中国历史等领域,不仅有益于对中华优秀传统文化进行推广和学习,还起到了知识融合的效果。通过事件关系抽取技术[1],我们获得古诗词中事件间的逻辑关系,并实现了事理古诗词知识库的搭建,同时构建了面向古诗词学习等热点的因果事理图谱。通过这种方法构建的古诗词学习平台,相比传统的古诗词学习方法,节省了整合资源的时间,提高学习者获取关键信息的速度,满足人们对学习和阅读古诗词的需求,具有重要意义。
1.描述对象-古诗词-历史事件库的构建
本文采用自顶向下的方法进行描述对象-古诗词-历史事件库的构建,因此,首先需要创建模式图,包括:
①总体模式图
总体模式图包括:古诗词中事物实体、人物实体、景物实体、古诗词实体、历史事件实体及实体间的关系。
②历史事件事理图谱的模式图
为了直观展示古诗词-古建筑内部的联系以及二者之间的关系,首先要建立古诗词-古建筑层次结构图。
在古诗词领域中,存在很多上下位关系。本项目采用作者、时期(即朝代)等因素作为古诗词相关知识的下层知识。作者、时期又各自包含其他子概念,从而形成上下位关系的层次结构。
此外,为了更清晰地描述图谱的结构,本文根据一部分历史事件知识实体创建了历史事件事理图谱的模式图。该模式图使用整体和先后关系、并列关系以及因果关系的图示来描述事理图谱的结构概念。
图1展示了历史事件事理图谱一部分的整体结构,从图中每个圆圈节点代表历史事件,节点之间的有向连线代表关系。
2.历史事件事理图谱子图的构建算法
事件事理图谱全图构建的基本思路为:匹配全图,截取子图。
事件事理图谱子图构建的算法:①提取起止事件节点;②使用起止节点和全图中的所有节点进行匹配;③在全图中取起止节点之间的所有节点以及起止节点;④取这些节点之间的全部有向边。
从一首古诗词的赏析文本中提取到对应的起始事件节点和终止事件节点,将其存入事件子图数据表中,当需要构建一个相应子图时,将这两个起止事件节点与图谱全图中的事件节点进行对比匹配,匹配成功后选取起止事件节点及两者之间的所有事件节点作为子图。
二、智能问答部分的技术实现
(一)智能问答的实现流程
该模块提供模糊查询的功能。学习者在搜索栏输入问题后点击“确认”按钮,后台会提取学习者问题中的关键词,并与存储的问题库进行相似性计算。系统将根据相似度从高到低的顺序显示相关的答案,让用户选择最关心的问题,并给出相应的答案,从而使学习者获取相关的知识内容及回答,输出结果如图2所示。
此外,如果学习者输入的搜索内容为空,则不进行页面跳转,保持原页面不变。如果搜索内容不为空且在后台数据库中有相关的数据存储,则显示相应的结果。如果没有相关的数据存储,則不进行页面跳转,仍然显示原页面。学习者可以点击“重置”按钮清空输入栏中的内容,以便进行重新搜索。
(二)古诗词分类模块的技术实现
1. 意象实体识别
汉语作为象形文字,相对于拼音文字如英文而言更为复杂,并且古诗词与现代汉语的句型、句式存在差异,其中包括倒装、骈句、省略等现象,这些现象会对识别产生重大影响,导致冲突。因此本项目选择使用“基于神经网络”的命名体识别[2]方法。
尽管如此,由于古诗词文体的特殊性,针对古诗词的NER任务[3]来说往往要更有挑战性,下面列举几点:
中文文本中不存在明显的界限标志,而且“词”在中文里本来就是一个很模糊的概念,中文也不具备英文中的字母大小写等形态指示。
古诗词的用字、句型灵活多变,有些词语在脱离上下文语境的情况下无法判断是否是命名实体,即使是命名实体,当其处在不同的上下文语境下,可能表示不同的实体类型,此外古诗词中存在许多特殊句式,增加了实体识别的难度。例如“腰白玉之环”中存在“腰”名词动用为“在腰上佩戴”;“将军角弓不得控,都护铁衣冷难着。”中存在互文现象。
命名实体存在嵌套现象,例如“气蒸云梦泽,波撼岳阳城”在“岳阳城”中还嵌套着同样是地名的“阳城”,而且这种现象在具体地名中尤其严重,容易导致分析诗句描写地点时判别错误。
④古诗词中存在借代和引用的情况,如《滕王阁序》中出现了“胜地不常,盛筵难再;兰亭已矣,梓泽丘墟。”这里提到了“兰亭”这一古建筑名称,但实际上,该文是在描写滕王阁而非兰亭。
⑤古诗词里广泛存在简化表达现象,例如,在“烟波江上使人愁”中的“江”实际指的是“长江”,但在“醉不成欢惨将别,别时茫茫江浸月”中的江则指代的是“湓江”,因此,要分析简化表达所指代的具体地名,必须结合上下文和写作背景,不能一概而论。
⑥命名体(本项目研究的古诗词意象)中普遍存在相同意象却有不同的名称,如“月华”“小蟾”“玄兔”等都是用来表示月亮的,而“金陵”“石头城”“江宁”都是现南京的别称,如果不进行分类总结,将会极大程度降低意象的代表性和相似性。
为了解决上述问题,本项目选择使用基于字的BiLSTM-CRF[4]模型
2.实现原理
经过分析,本团队认为古诗词分类的最主要依据是古诗词中包括的意象。例如,包含“楼兰”“玉门关”“羌笛”的古诗词很大概率属于“边塞诗”;包含“画眉”“妆奁”的古诗词多属于“闺怨诗”。因此,本团队选择“意象”作为古诗词分類的依据。具体实现原理如下:
本文筛选出第一层级的意象,如“羌笛”“胡雁”等具有唯一指向性的意象,如表2所示,只要诗词中存在此意象,就直接将该诗划分为“边塞诗”;对于第二层级的意象,如“柳”“杜宇”等具有典型性但不具有唯一指向性的意象,如表3所示,利用相关性计算,最后求出该诗词是各种类别诗词的可能,从而进行分类。而对于第三层级的意象,如“白云”“流水”“青山”“日出”“温泉”“山茶”等不具有指向性的意象,本项目采取自动剔除的措施,即此类意象不参与诗词类别的划分。
3.技术实现
本项目收录了古诗词网记载的古诗词,从中选取了最具代表性的“唐诗三百首”和“宋词三百首”,作为样本,通过人工标注意象的形式,利用基于字的BiLSTM-CRF模型,评测中所采用BIO标注集,划分结果如表4所示。
构建古诗词中的同义词词库,如:“月华”“小蟾”“玄兔”等都是用来表示月亮的,而“金陵”“石头城”“江宁”等都是现南京的别称,如果不加以分类总结,会极大程度降低意象的代表性和相似性,因此在意象分析的时候,本项目选择构建一个同义词词库,如表5所示,进而提高结果的正确率。
三、诗人行迹部分的技术实现
(一)地点实体识别
本文基于智能问答模块构建的意象库,构建了“地点库”,用以识别诗词中包含的地点信息,从而服务于后续的诗人行迹的地图绘制。
(二)诗词地图的绘制
本项目收录百度百科上的诗人“人物生平”部分,并按诗人划分存入文件,后将诗人生平文本在“地点库”遍历一遍,输出地点识别结果。
后将识别出的全部地点遍历“省数据库”,将地点精确到“省”。
利用百度地图提供的基于百度地图的应用程序接口,在地图上标注出识别到的地点。
导入诗人诗词库,按照地点分类,归类到对应的地点坐标下。
四、结束语
为了解决当下古诗词知识图谱不完善的问题,本项目基于可视化和命名实体识别技术搭建了一个学习教育平台,该平台包括可视化图谱展示、智能问答、古诗分类和诗人行迹等四个核心模块。为了实现诗人行迹和诗词分类的功能,本项目提出并实现了意象识别算法,并创新提出了第一层级意象、第二层级意象和第三层级意象的概念。这可以有效解决学者在阅读和鉴赏古诗词时由于相关知识的缺乏而无法很好地学习和记忆,以及文学工作者在大量的古诗词和传统文化数据中高效获取所需信息的问题。
作者单位:梁艺馨 翟洁 李东睿 熊瀚锐 华东理工大学
参考文献
[1] 姜磊,刘琦,赵肄江等.面向知识图谱的信息抽取技术综述[J].计算机系统应用,2022,31(07):46-54.
[2] 陈志峰. 基于深度神经网络的中文命名实体识别方法研究[D].福建工程学院,2022.
[3] 张凤荔,黄鑫,王瑞锦等.基于BERT多知识图融合嵌入的中文NER模型[J].电子科技大学学报,2023,52(03):390-397.
[4] 汤洁仪,李大军,刘波.基于BERT-BiLSTM-CRF模型的地理实体命名实体识别[J].北京测绘,2023,37(02):143-147.
梁艺馨(2002.10-),女,汉族,辽宁东港,本科,学生,研究方向:智能科学与技术;
翟洁(1977-)女,汉族,江苏南通,华东理工大学,讲师,研究方向:大模型、知识图谱、大数据分析、教育改革与发展;
李东睿(2002.03.14-),男,汉族,黑龙江牡丹江,本科,学生,研究方向:智能科学与技术;
熊瀚锐(2002.6.28),男,汉族,湖南常德,本科,学生,研究方向:软件工程。