APP下载

基于知识图谱的民国绘画平台的设计与研究

2023-06-12赵伟男俎再泉康玉晖夏方方候霞

电脑知识与技术 2023年11期
关键词:知识图谱

赵伟男 俎再泉 康玉晖 夏方方 候霞

关键词:知识图谱;图数据库;Echarts图表库;渐进式框架;Web开发

0 引言

随着信息技术的高速发展,信息的传播方式呈现出多元化的趋势,新媒体成为文化传播的新方式,它的应用改变了以往人们只能被动接收信息的状况、打破了文化传播地域性的限制,人们能够主动且迅速地获取到文化内容,同时将自己获得的信息传递出去,使得文化的传播更加广泛[1]。

为适应新时代文化传播方式,线下博物馆也开始了文物数字化的转变。当下,比较成熟的实现成果是博物馆网站[2],但其中的内容仅是对独立的一个作品展览介绍,没有将众多的内在知识关联起来,难以充分展现文化内容和数据价值。知识图谱技术能使独立数据形成实体与实体之间的关联,作用在博物馆数据集中,能充分展示出作品之间的深层次关系,从而丰富作品的展示形式。

本文提出一种基于知识图谱技术来对民国绘画、画家信息进行知识组织的方案,并设计了基于知识图谱的书画作品平台。

1 书画类知识图谱数据模型构建

1.1 数据获取

数据获取的主要任务是完成对民国画作、作者数据信息的收集,数据来源包括百度百科、维基百科、Google学术等方面。但从网络获取的知识数据多是一些半结构化的数据,该形式不契合关系数据库中数据表的强关联性的结构,但是又包含分离语义元素的标签或数据字段的结构。因此,本文采用爬虫技术进行数据爬取,对获取的非结构化数据进行一定的处理,为后续抽取实体和实体关系形成知识图谱做准备。

从网站上爬取相应数据需要用到解析技术,本文数据解析采用了Beautiful Soup[3]技术来对DOM树解析,例如使用如下方式对某一个知识节点进行获取。

Beautiful Soup技术主要是利用DOM树的结构化标签的特性,通过按照节点名称搜索,属性搜索,节点文本搜索等方式对标签进行抽取,最后序列化到本地磁盘。

使用网络爬虫获取的数据由于比较混乱,还不能作为实体以及关系抽取的数据源,因此需要对数据进行清洗,即剔除不符合标准的数据,对数据所属类型进行分类等。最终经过一系列的操作,获得了干净的数据源,接下来所要做的操作便是对实体以及关系的抽取。

1.2 领域知识建模

知识领域建模需要对数据进行实体以及实体间关联的抽取。一般来讲,相同的数据可以通过多种模式方法来定义,设计一个优秀的模式可以避免数据的冗余,减少数据库的存储空间及维护的成本。

为此,通过对画作、作者延伸知识的特征分析,总共抽取出7类实体和10类关系:

1) 实体类型:作者籍贯、作者、画作、画作风格、画作类型、题诗、钤印7类实体。

2) 关系类型:作者徒弟关系、作者籍贯关系、作者创作钤印关系、朋友关系、擅长风格关系、作者代表作关系、画作题诗关系、画作所属钤印关系、画作风格关系、画作类型关系。

本文构建的知识图谱示例如图1所示。其中圆用来标识实体,实体与实体间的关系由图中的边定义。例如“ 張大千”与“ 万寿山昆明湖”的关系为“au?thor_representPainting_painting”,即张大千的代表作为万寿山昆明湖。其他实体之间的关联形成与上述情况类似。

2 基于知识图谱的书画作品平台

2.1 系统设计

针对书画作品展的需求,定义系统功能需求包含如下内容:

1) 首页使用山水画,借助轮播图技术展示。

2) 头部功能模块区域,定义“首页”“画作”“作者”“主题”四个模块,点击页面跳转至相应的模块区域。搜索模块点击后可输入文字,点击搜索按钮后跳转页面。

3) 画作浏览模块,展示许多画作的缩略图,随着页面下滑不断填入新的画作,鼠标悬浮显示画作基本信息,点击跳转详情页面。

4) 作者浏览模块,展示许多作者的缩略图,随着页面下滑不断填入新的作者,鼠标悬浮显示作者基本信息,点击跳转详情页面。

5) 主题模块,展示画作的三种主题:“山水”“人物”“花鸟”,点击某个主题跳转至相应画作主题展示区域。

6) 画作详情模块,主体区域展示画作图片,一旁注明画作完整信息。此页面中根据知识图谱技术推荐与本画作具有关联的画作列表,并提供“换一换”功能。

7) 作者详情模块,展示作者基本信息、作者画作。实现一个中国地图,地图上注明作者生平所经过地点、作画地点。

本方案的核心目标是“多关系图”的信息可视化。结合知识图谱的特征、技术原理和传统信息可视化方法,可以将知识图谱可视化的过程,归纳为“确定知识主题(主题层)-处理与分析数据(数据层)-构建数据三元组(关系层)-进行可视化映射(可视层)”四个步骤[4]。系统架构如图2所示。

系统原型的实现,从开发流程上来说,大致可以归为Neo4j数据库设计与存储(数据层与关系层)、后端数据接口的实现、前端布局与交互实现(可视层)三个部分内容[5]。本文将从上述三个模块展开论述。

2.2 Neo4j 数据库的设计与存储

最开始的数据集是非结构化的,语义并不明确,通过构建书画类知识图谱数据模型,人工定义实体与关系,再经过几轮数据清洗后,数据呈现出具有半结构化层次结构且语义清晰的数据集。将其分类存入csv文件中后,在Neo4j数据库中进行导入,最终实现了数据的存储。

根据需要,数据库中设计了“作者”“画作”“题诗”“印章”“画作类型”“地区”“画作风格”几种实体,以及“作者祖籍”“画作风格”“作者朋友”“画作题诗”“画作印章”“画作风格”几种关系。

利用上述节点与关系,构建知识图谱三元组,例如,“[ 作者”-“祖籍”-“地区”]、“[ 画作”-“风格”-“画作”]等,最后将各个节点及关系数据存储到数据库中。存储成功后,经测试,此数据库可以实现对画作、作者及各种关系数据进行快速检索,为前端数据的快速响应与推理提供保障。

2.3 后端数据接口的实现

伴随着DOM操作库与模板引擎的出现,市面上的项目逐渐由原先的后端主导模式转向富前端化,将更多的交互逻辑交由前端来实现,后端只保留数据支持与运维部署。此项目正是因为富前端化,后端仅实现为前端提供数据接口功能。

在使用的SSM(Spring+SpringMVC+MyBatis) 框架中,Spring负责创造bean容器;SpringMVC负责配置前端控制器;MyBatis负责与数据库进行交互,并取得原始数据。

数据请求处理流程如图3所示。在请求发出后,前端控制器将请求分发给相应的控制器(Controller) ,控制层调用模型处理业务(Service) ,在Service层调用持久层接口(dao) 取得数据库原始数据。最终,在Ser?vice层将原始数据封装为对象,通过第三方工具Jack?Son转化为json格式响应给前端。

2.4 页面布局与交互实现

在结合系统功能需求并综合考虑市面上成型网页设计元素后,本项目共设立“主界面”“浏览画作”“浏览作者”“画作详情”“作者详情”五个关键界面,最终使用墨刀平台进行设计稿的设计。在设计稿实现前确定使用Vue框架开发单页Web应用来为页面提供更快的访问速度,使用Echarts图标库来为数据呈现出更好的可视化效果。

1) 主界面

界面主体分为头部区域与主体区域。头部区域Logo部分点击后跳转页面首页,中间四个功能模块点击跳转至相应区域,右边搜索图标点击后弹出搜索框供文字键入,在搜索框中有文字的情况再次点击搜索图标跳转搜索结果页面。主体区域选材为卷类型画作关键部位截取,点击后跳转至相应详情界面,鼠标悬浮画作会弹出左右切换按钮,默认情况下每隔5s自动切换下一张。

2) 浏览界面

浏览界面分为浏览画作与浏览画家两个界面,在页面头部分别点击“民国绘画”“民国画家”进入,两页面主体功能逻辑几乎相同。因图画、作者图片数据较多,为优化页面响应速度,前端使用插件v-lazy实现图片的懒加载,优先加载页面可视区域的图片,另外,图片均采用小于256kb的缩略图。鼠标悬浮在图片上会显示相应图片的名称信息,点击后跳转至详情页面。

3) 详情界面

详情界面分为画家、画作两个详情界面,画作详情界面展示了画作的完整图片,其下注明画作的相关信息,诸如画作名称、画家、画作规格等。在底部提供相关画作推荐功能,根据构建的“[ 画作”-“关系”-“画作”]三元组进行内容的提供。

作者详情界面如图4所示,主體区域分为左右两个部分。右侧部分为画家的基本信息,通过上侧导航栏可查看当前画家的画作列表、生平。左侧部分使用Echarts技术实现中国地图,显示画家生平所经历之处,包括“祖籍”“游历”“作画”等地点,配置data数据项来实现鼠标悬浮在相关地区显示画家在此地的活动信息。

3 结束语

本文提出了一种基于知识图谱的书画类作品平台,通过图谱的内在关联进行知识的快读导航。从系统设计方案入手,阐述了实际开发中知识图谱技术与前端框架的使用。系统后端通过对数据进行图谱构建、存储,实现数据接口,为前端提供结构化数据及实体关系表;通过分析数据接口中的数据,前端对数据进行双向绑定与动态渲染,搭建了用户友好型展示界面,可为用户进行高效的知识导航。

本次工作对书画类知识图谱的构建和应用进行了一次有效探索,后期工作还需深入开展。如数据中画作、作者的数据还不够丰富。未来考虑将收集更多的画作、作者信息,去构建更大的知识图谱,从而使知识图谱在Web应用中展现出更大的活力,为其他研究人员及开发人员提供更有价值的参考。

猜你喜欢

知识图谱
国内外智库研究态势知识图谱对比分析
国内信息素养研究的知识图谱分析
国内图书馆嵌入式服务研究主题分析
国内外政府信息公开研究的脉络、流派与趋势
近十五年我国小学英语教学研究的热点、问题及对策
基于知识图谱的产业集群创新绩效可视化分析
基于知识图谱的智慧教育研究热点与趋势分析
国内酒店品牌管理研究进展的可视化分析
从《ET&S》与《电化教育研究》对比分析中管窥教育技术发展
专家知识图谱构建研究