基于MacBERT的徽派古建筑修缮文本实体识别方法研究

2023-12-25夏青石明钧

电脑知识与技术 2023年31期

夏青石明钧

摘要：伴随着中国几十年的城市化进程，越来越多的传统建筑消失在历史的长河中。具有鲜明中国特色的徽派古建筑也难以幸免。当前的徽派古建筑修缮知识常以纸质书籍、电子书、数据库等形式存储，并且专业名词多，传统搜索引擎很难满足用户精准检索知识的需求。文章提出基于MacBERT的命名实体识别方法，对徽派建筑修缮内容进行知识抽取，解决修缮实体界限不明显、种类复杂的问题；基于Neo4j图数据库构建徽派建筑修缮知识图谱，将知识体系化管理，提出用户自然语言问句查询知识图谱方法，实现知识效用最大化。

关键词：知识图谱；徽派古建筑；MacBERT；Neo4j；实体识别

中图分类号：TP399 文献标识码：A

文章编号：1009-3044（2023）31-0044-04

开放科学（资源服务）标识码（OSID）：<G：＼飞翔打包文件一＼电脑2023年第三十一期打包文件＼9.01xs202331＼Image＼image248.jpeg>

0 引言

徽派古建筑的修缮不同于现代建筑，它要求施工人员掌握复杂的修缮知识，同时充分了解相关的历史文化和当地人文风俗。而这些对施工人员来说是一个巨大的挑战。互联网的出现给施工人员查找相关信息提供了一个巨大的平台，通过互联网可以获得大量的相关信息。而这些相关信息却要人工筛查甄别，这无形中增加了繁重的工作量，这对紧迫的工期而言是相当不利的。通过创建徽派建筑修缮知识图谱帮助施工人员获得准确有用的信息，把施工人员从繁重的信息筛查任务中解放出来，保存足够的精力去及时地完成园林修缮任务。目前徽派建筑修缮研究涉及建筑材料、建筑构造和建筑修缮技术等方面。王婧等[1]研究徽派建筑根据灰砖的材料性能及其受潮老化的特点，并提出新的抗老化材料；周亮等[2]利用三维激光扫描技术和BIM技术对宣城徽派建筑进行数字化建模，并开发了修缮决策支持系统。

1 相关理论与技术

1.1 知识图谱

知识图谱是用于揭示知识之间关系图形化数据库。构建知识图谱分为6个部分：第一部分是知识抽取，从不同类型数据中抽取实体、关系和属性信息。第二部分是知识融合，将多源异构的知识进行整合[3]。第三部分是知识表示，将知识客体中的知识通过含有语义关系的符号或图形进行表示。第四部分是知识推理，根据现有知识推断出潜在内容。第五部分是知识存储，将处理完成的数据存储在图数据库。第六部分是知识计算与应用。

知识图谱依据知识的覆盖面不同，可以划分为两种类型图谱，一种为覆盖知识面广泛的通用型知识图谱，如WordNet，数据来源广泛，知识深度低；另一种为覆盖领域知识的行业知识图谱，如化工领域、建筑领域和消防领域等，面对不同行业，实体类型需要单独定义主要用于自定义的领域数据集，因为其应用的功能主要是智能问答、辅助决策。

1.2 预训练语言模型

在图像识别领域，将图片转换为矩阵形式存储，然后在深度学习中的神经网络模型中进行卷积、池化、全连接等操作，最后进行图像分类。计算机对于文本的转化，是采用词向量的方式，将一个文字转化为N×1的二维向量，对于一句话而言，包含若干个字词，则将每个词的向量，依次排列组成一个三维矩阵。

MacBERT（MLM as correction BERT），由哈尔滨工业大学SCIR实验室于2020年11月提出，从名字可以看出MacBERT 修改了BERT模型的MLM任务。MacBERT 模型通过用近义词来掩盖单词，MacBERT 模型调整了 BERT 模型的掩码语言模型预测任务，一是对所有单词都添加[mask]标识符以及 Ngram masked 策略来选择屏蔽的单词[4]。二是对15%的单词进行屏蔽，15%的单词中的80%替换为近义词（使用Synonyms toolkit工具获取），其余的20%中有一半替换为随机的单词，剩下的一半则为原来的单词，可见这种方式在预训练时没有[MASK]标识符的身影，然后模型根据上下文进行单词预测。这种修改的MLM方法可以缩小训练阶段与微调阶段之间的差距，提升模型的性能。

2 基于MacBERT的徽派古建筑修繕文本实体识别

本文的命名实体识别任务就是将与徽派建筑修缮相关的文献中存在的实体进行识别。例如文中有这样一句话：“门扇裂缝宜使用木条嵌补”。此时我们希望能够识别的实体应包括以下部分：徽派建筑修缮品类实体“门扇”，修缮状态实体“裂缝”，修缮材料实体“木条”，修缮方法实体“嵌补”。

为了获得更高的实体识别率，本文设计并使用MacBERT-BiLSTM-IDCNN-CA-CRF命名实体识别模型（简称MBICC），其有以下几点优势：

1）为了完成字向量特征提取，本文首先使用预训练语言模型MacBERT，通过绝对位置编码与句子顺序预测来训练文本数据，从而捕获到不同维度上包含上下文信息的字向量。然后通过BiLSTM模型提取字向量特征。上述操作流程强化了字向量对园林修缮实体的表达，实现了字粒度特征向量提取。

2）由于中文的部首同样也蕴含着大量字义信息，为了融合建筑修缮文本的部首特征。本文通过IDCNN模型，来完成建筑修缮文本的部首级别的特征向量提取。

3）通过引入协同注意力机制CA （Co-Attention Network）来融合字粒度特征向量与部首粒度特征向量，生成<文字-部首>对的双相关特征，最后CRF在特征整合层的输出向量中选择最优的实体标签序列，于是就得到了最优的预测结果[5]。

2.1 字粒度特征提取层

传统的深度学习模型通常使用Word2Vec、Glo Ve等静态语言模型对词进行编码，而对于同一个词，静态语言模型无法依据不同的上下文语境表达出不同的含义。但在实际生活中，一词多义现象十分普遍。因此，本研究采用动态预训练语言模型MacBERT对阅读理解问题进行预测。

2.2 部首粒度特征提取层

中文的部首结构拥有丰富的含义，为了从文字中提取部首信息并将其编码为向量表征，本文选择IDCNN作为部首特征提取的训练模型。选择它的理由是：卷积神经网络CNN已经被广泛用于文本信息的提取，并且取得了不错的成果。但是其仍然有不足之处，卷积神经网络的末层神经元在卷积操作中不能够保证百分百地获得全部的原始信息，此时只能通过在卷积神经网络添加卷积层、超参数等操作来获取更多的信息，这样做的代价就是模型计算量过大并且难以训练。

汉字是一种象形文字，文字的偏旁部首都有其独特的象征意义。不同领域的文献文本往往具有自身鲜明的部首特征。例如，与园林建筑修缮相关的文献文本部首信息往往与土木、屋顶、房梁相关。而与医学相关的文献文本往往与疾病、药材、症状等相关。因此可以充分地利用行业领域文字特有的部首特性，把与园林建筑修缮相关的文字部首特性与融合语义的字向量相结合，从多个方向去提升园林修缮文本的中文命名实体识别能力。

一般来说，一本描述建筑修缮相关的文本文献，肯定会大量出现土建类的专有名词，这些专有名词往往会涉及建筑类型、建筑材料、建筑功能、建筑风格等。而这些专有名词又是中文命名实体识别的重点对象。通过对建筑专有名词的归纳总结不难看出它们在汉字的部首结构上是存在共性的。举例来说，在建筑文献中一般会出现“房梁”“屋顶”“楼层”“楼道”“承重墙”“窗户”“房门”“楼梯”等词汇，通过分析这些词汇可知出现了多个与土建类相关的部首分别是“户”“木”“土”“穴”“门”。如果此时在《新华字典》里查询这些部首不难发现建筑文献的绝大多数名词都是由这些部首组成。因此，选择将中文部首作为建筑文献文本的特征向量是有助于提高中文命名实体识别的准确率。

2.3 特征整合层

Co-Attention 是一种使用协同注意力机制的多模态模型，对输入的字粒度向量和部首粒度向量进行并列操作，并联合学习得到各自的注意力权重。本文同时捕获建筑向量中的文字和部首信息并进行融合，生成<文字-部首>对的双相关特征，使用门控多模态融合模块自适应进行特征融合，为了减少在多模态中引入噪声的可能性，利用过滤门自适应地过滤掉无用的多模态信息，最后根据不同模式的特征组合得到一个基于字特征和基于部首特征的新特征。

2.4 基于MacBERT的命名实体识别实验及分析

2.4.1 实验数据

由于徽派建筑修缮缺少公开的中文数据集，因此，本文针对研究任务自建徽派建筑修缮数据集。该数据集选用数据主要来源于百度百科、与园林建筑修缮相关图书和安徽建筑大学徽派建筑数字图书馆的数据。为了保证数据的完整性，本次对数据进行分词、去重及数据清洗等一系列预处理操作，最后经过人工标注得到实验数据集[6]。该实验数据集总共包含了11 986条徽派建筑修缮领域的句子。徽派建筑修缮领域共9种实体类型，分别是修缮材料（materials）、修缮工具（tool）、修缮规则（regulation）、修缮方法（method）、损毁原因（disaster）、建筑状态（condition）、建筑名稱（name）、建筑类型（type）、修缮部位（position）。

本数据集按照7∶2∶1比例划分为训练集、测试集和验证集[7]，训练集8 390条，测试集2 397条，验证集1 199条。数据集中包含实体24 503个，训练集中有材料3 261个，工具1 205个，灾害896个，规则207个，方法631个，状态497个，名称5 166个，类型408个，部位4 853个。

2.4.2 对比实验结果与分析

为了证明本章提出的中文命名实体识别方法的有效性，基于控制变量思想，选用ALBERT-BiLSTM-CRF、BERT-BiLSTM-CRF和MacBERT-BiLSTM-CRF三种模型与本章的模型进行对比试验，实验的具体结果如表1所示。

1） ALBERT-BiLSTM-CRF模型，朱鹏等[8]提出将通过ALBERT层学习字级别特征表达与BiLSTM层提取文本上下文语义特征，由CRF层获得全局最优标记序列，更有效地识别并提取中文地名。

2） BERT-BiLSTM-CRF模型，谢腾[9]提出了一种基于BERT-BiLSTM-CRF模型的研究方法：首先通过BERT模型预处理生成基于上下文信息的词向量，其次将训练出来的词向量输入BiLSTM-CRF模型做进一步训练处理。该模型考虑了词上下文的语义信息，对一词多义进行表征。

3） MacBERT-BiLSTM-CRF模型，焦凯南等[10]提出使用能减少预训练和微调阶段差异的MacBERT来获得动态字向量表达，并送入BiLSTM和条件随机场CRF进行上下文特征编码和解码最终得到最佳实体标签。

由表1可得出，模型较其他三种模型，准确率、精确率、F1值都有所提高，其中F1值提高了更为显著，这因为本模型将MacBERT模型作为预训练语言模型，并且引入协同注意力机制，其在判别器预测阶段，面向句子序列中token，较其他预训练模型，能够更有效地进行训练。

3 徽派建筑知识图谱构建

在构建层，需要将模型训练层得到的实体与关系三元组存入Neo4j图数据库中，Neo4j提供本地存储与远程连接两种方式，本文选择本地数据库。Neo4j使用Cypher语句进行操作数据，可以通过LOAD CSV方式批量导入数据，将标题信息、实体、关系三元组依次写入。将CSV格式的实体数据文件放入数据库中的import文件夹下，使用Cypher语句进行批量存储。根据实体类型共创建9种实体类节点，分别是修缮材料（materials）、修缮工具（tool）、修缮规则（regulation）、修缮方法（method）、损毁原因（disaster）、建筑状态（condition）、建筑名称（name）、建筑类型（type），修缮部位（position）。将CSV格式的关系数据文件放入数据库中的import文件夹下，使用Cypher语句进行批量存储，三元组数据中的实体已经创建完成，执行添加关系语句即可。建筑实体间的关系类型包括位于、使用、修缮依据、组成、发生、比较等。构建完成的知识图谱在图数据库中如图1所示。

以“边金童柱身槽朽的修缮”为例，通过展示知识图谱内容，获得修缮策略。具体而言，对于边金童柱身槽朽的情况，可以采用以下修缮措施：首先，修缮应该按照相关建筑修缮规定进行操作；对于槽朽部分不超过五分之一，应该实验剔补的修缮方法，后期维护上要重点注意潮湿对柱身的负面影响。例子如图2所示。

4 结论

本文着手建立徽派建筑修缮知识图谱，先从徽派建筑修缮文献入手，整合徽派建筑的建筑特色、建筑风格、建筑类型、建筑用材等专业知识，进行知识提取，进而构建徽派建筑领域知识图谱应用于建筑文献信息化管理，为徽派建筑行业领域创造价值。

参考文献：

[1] 王婧，董新民，曹福亮，等.徽派建筑灰磚潮湿老化特性及预防措施研究[J].建筑材料学报，2013，16（1）：73-79.

[2] 周亮，吕志华，黄永生，等.基于激光扫描与BIM技术的徽派建筑数字化修缮研究：以宣城市文保单位王氏宗祠为例[J].城市建筑， 2016（10）：54-59.

[3] 谢炎宏，王亮，董春，等.面向地震灾害防治的知识图谱构建方法研究[J].测绘科学，2021，46（10）：219-226.

[4] 王雪梅，陶宏才.基于深度学习的中文命名实体识别研究[J].成都信息工程大学学报，2020，35（3）：264-270.

[5] 刘乐.深度学习模型在地理命名实体识别中的应用研究[D].天津：天津师范大学，2021.

[6] 陈晓宇.基于CCRF-AL方法的中文电子病历命名实体识别研究[D].北京：北京化工大学，2019.

[7] 张婕.基于语言模型的多视角分子属性预测[D].哈尔滨：哈尔滨工业大学，2021.

[8] 朱鹏，石丽红，焦明连，等.混合神经网络的中文地名识别方法[J].测绘科学，2021，46（11）：159-165.