中文多模态知识库构建

2022-05-31张坤丽王佳佳张维聪韩英杰昝红英

广西师范大学学报（自然科学版） 2022年3期

晁睿, 张坤丽, 王佳佳, 胡斌, 张维聪, 韩英杰, 昝红英

(郑州大学计算机与人工智能学院，河南郑州 450001)

近些年，随着互联网技术的发展，数据的增长趋势呈爆发式，利用多源数据描述同一对象或相关对象，即多模态数据，成为信息化时代数据资源的主要形式[1]。人类的认知能力之所以优于机器，正是因为人类能够对多模态数据进行统一处理。例如视频中含有文字、图像和声音等多种模态的信息，只有对这些信息进行统一把控，才能真正理解该视频的内容，因此多模态机器学习受到了研究者的广泛关注。多模态学习通过联合表示不同模态的数据，建立模态之间的联系，从而实现各个模态信息的生成和转换。对于许多涉及多模态的实际问题，引入多模态信息能够带来大幅度性能改进[2]，但目前国内多模态研究较少，缺乏高质量的中文多模态语料库。

本文通过人工标注将ImageNet[3]与知网(HowNet)[4]及中文概念词典(Chinese concept dictionary， CCD)[5]通过概念建立联系，从而将图片信息引入到HowNet与CCD中，形成多模态知识的融合。HowNet中融入图片信息可以有效解决同义义原组的歧义问题，同时可以通过图片信息对部件—整体关系、属性—宿主关系和材料—成品关系等进行更加准确的推理。CCD中融入图片信息能够在一定程度消除概念词典中的歧义问题，同时CCD和ImageNet使用相同的WordNet层次结构进行构建，将二者结合能够获得更加有效的语义表示和图像表示。

1 相关工作及应用

多模态融合是多模态机器学习的核心任务，指对不同模态数据进行综合利用，为模型提供更多的信息，从而提升模型感知和决策能力。近些年，多模态融合在自然语言处理[6]等领域取得了较多的成果。例如：Xie等[7]在知识表示学习任务中引入图像信息，并提出一个全新的融合实体图像的知识表示学习模型，在知识图谱补全和三元组分类等任务上均超过了基准模型；Zhang等[8]在命名实体识别任务中引入图像信息，能够有效消除部分实体的歧义问题；李霞等[9]通过将多模态信息融入情感预测任务，取得了较好的结果。多模态信息的融合能够使模型获得更加全面的特征，提升模型鲁棒性，并且能够保证在某模态缺失时仍能有效工作[10]。

多模态融合技术能够广泛应用于多模态的研究中，其中较为成熟的技术有视听语音识别、图片视频描述、图文情感分析和匹配分类[11]。Mroueh等[12]最先利用双线性DNN模型联合声音和视频2个模态的信息进行视听语音识别，实验表明该模型优于使用单一模态的模型，但该模型无法对音频噪声进行处理。Lei等[13]提出一种增强视频描述生成连贯性的循环结构MART，使用记忆存储单元增强Transformer架构，实现递归模型，能够从视频片段和句子历史记录，生成高度汇总的记忆帮助预测，可以产生更连贯、没有重复、具有相关性的自然语言。基于Transformer的体系结构代表了诸如机器翻译和语言理解之类的序列建模任务中的最新技术。然而，其在诸如图像字幕之类的多模式上下文中的适用性仍在很大程度上未被开发。Cornia等[14]为了填补这一空白，提出带图像字幕存储功能的M2-Transformer模型。该体系结构改进了图像编码和语言生成步骤：它集成先验知识，学习图像区域之间关系的多级表示形式，并在解码阶段使用类似网格的连通性来利用低级和高级特征。韩晶[15]提出一种基于语音与视觉信息融合语音识别模型，该模型利用视觉信息来对抗音频中噪声的干扰，使用两个HHM分别处理视听信息，实验表明该模型能有效克服噪声，提高识别准确率。邓佩等[16]针对微博语料特点，提出一种基于转移变量的图文融合微博情感分析方法，该方法通过引入图片信息作为情感浓度，进而影响文本的情感分布，实验表明，与传统方法相比，该方法能够更准确地预测微博情感倾向。Huang等[17]将视觉关注模型、语义关注模型和多模态关注模型融合到一个情感分析的模型中，通过在Twitter、Gettyimage和Flickr等3个数据集上进行实验，证明了该模型的有效性。Tian等[18]提出一种统一的网络来共同学习图像和文本之间的多模态匹配和分类，在包含图片、音频、视频和3D模型的数据集上进行实验，证明该方法能够提升精度。

由于多模态融合技术的巨大发展潜力，受到了研究者持续关注。UTD-MHAD[19]多模态数据集是由视频、深度、骨架和惯性等4个模态的同步数据构成，该数据集在人类行为识别领域被大量使用。RECOLA[20]多模态数据集由瑞士弗里堡大学研究人员设计构建，数据集包括音频、视觉和生理数据，能够让研究者从多方面进行情感识别。AMI会议多模态数据集[21]是目前信息量最大、功能最全面的音视频多模态数据集，该数据集广泛应用于VQA任务。Flower数据集[22]通过对花的4个特征(局部纹理、边界形状、花瓣分布和颜色)进行描述以得到多个特征的表示，结果表明，学习多个特征的最优核组合可以极大地提高性能。ActivityNet数据集[23]是广泛使用的视频描述数据集，在训练中包含10 009个视频，在验证中包含4 917个视频。训练中的每个视频都有1个参考段落，而验证中的每个视频都有2个参考段落。但目前存在的多模态融合数据集大多是英文数据集，缺乏对中文语义及概念的描述。

2 多模态知识库体系及构建规范

本文多模态知识库构建的目的是将ImageNet中的概念映射到HowNet及CCD中。由于在HowNet及CCD中均包含英文概念描述，因此通过英文分别进行映射。首先，通过数据预处理程序筛选确定候选概念集合，然后，人工标注从候选概念集中确定对应概念，同时，本次构建工作还校对了ImageNet中的概念与图片是否对应。多模态知识库构建整体流程如图1。

图1 多模态知识库构建整体流程Fig. 1 Overall flow chart of multimodal knowledge fusion construction

2.1 数据形式

知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。它是一个网状结构的知识系统，而非一部简单的语义词典，能够有效反映出概念之间的共性和个性。例如：对于“教师”和“学生”，“人”是它们的共性，“教学”这一动作是“教师”的个性，“听课”这一动作是“学生”的个性。除了例子中概念的共性和个性，知网还能反映概念与概念之间和概念属性之间的各种关系，包括：上下位关系、同义关系、反义关系、对义关系、部件—整体关系等。知网的规模主要取决于双语知识词典数据文件的大小，规模可以动态变化，知网2.0版本包含汉语词语50 220个、汉语概念62 174个、英语词语55 422个和英语概念72 994个。本次知识融合以知网的义原为单位，HowNet数据样例如图2。

图2 HowNet数据样例Fig. 2 HowNet data sample

中文概念词典(CCD)是基于WordNet框架的汉英双语语义词典，包含中英文对应的概念节点。CCD以同义词集定义概念，在概念之间定义关系，涉及词性有名词、动词、形容词和副词，主要语义关系有同义关系、反义关系、下位关系、整体部分关系等。目前CCD中包含6.6万个名词范畴概念、1.2万个动词范畴概念和2.1万个修饰词范畴概念，实现了对WordNet中近10万个英文概念的汉语概念对应。本文知识融合只针对CCD中的名词和动词2个类型，CCD数据样例如图3。

图3 CCD数据样例Fig. 3 CCD data sample

ImageNet是根据WordNet层次结构组织的图像数据集，其具有规模大、种类多和高精准等特点。在ImageNet中，为每个synset(同义词集合)提供平均1 000幅图像，每个concept(概念)图像都是人为标注。ImageNet是一项持续的研究工作，旨在为世界各地的研究人员提供易于访问的图像数据库，目前ImageNet中总共有14 197 122幅图像，共分为21 841个类别。本文知识融合主要涉及的图像概念包括名词及动词，ImageNet的数据形式为一个或多个英文标签表示的概念以及对应的图片(5张)，概念和图片之间通过ID号进行链接。

2.2 数据预处理

数据预处理即通过程序筛选确定候选概念集合，由于ImageNet及CCD中的概念描述均可能为多个词语，所以存在完全匹配和部分匹配2种情况。完全匹配指ImageNet中的概念和HowNet或CCD中的概念完全一致；部分匹配指ImageNet中的概念经过分割后的子字符串与HowNet或CCD中的概念进行匹配。完全匹配和部分匹配的概念都作为候选概念集中的内容，按照匹配程度对候选概念集合进行排序。

HowNet不是基于WordNet框架构建的，所以HowNet候选区中的概念一般较多，但是与ImageNet匹配程度较差。CCD和ImageNet都是基于WordNet框架构建的，所以CCD候选区中的概念一般较少，但是与ImageNet匹配程度较高。

2.3 构建任务及规范

中文多模态知识库构建平台如图4，主要包括ImageNet概念及图片区、HowNet候选区和CCD候选区。ImageNet概念及图片区包括该概念和该概念中的5张图片，不符合概念的图片可以选中删除。HowNet候选区为数据预处理筛选出的候选HowNet概念集合，符合概念的进行勾选。CCD候选区为数据预处理筛选出的候选CCD概念集合，符合概念的进行勾选。

图4 多模态知识库构建平台Fig. 4 Construction platform of multimodal knowledge fusion

1)ImageNet的校对。ImageNet的校对工作主要为以下3点：①删除ImageNet图片中与该概念不符的图片，例如ImageNet的概念为“cat”，图片中出现与“cat”无关的图片，则需要删除；②删除ImageNet中的重复图片，多个重复图片只保留一个；③删除ImageNet中的模糊图片，例如图片像素高度模糊、图片被马赛克遮掩和图片被水印遮掩等无法准确辨识的图片均需要删除。若ImageNet概念出现多义词，取大多数图片表示的含义做为该概念的含义，删除表示少数含义的图片，例如概念“bow”同时有“蝴蝶结”和“弓”的含义，该概念的图片出现4次“蝴蝶结”的图片和1次“弓”的图片，则删除“弓”的图片，保留“蝴蝶结”图片。

2)ImageNet概念与HowNet的对应。ImageNet概念与HowNet的对应指根据数据预处理结果形成当前概念相匹配的HowNet候选概念集合，根据ImageNet概念描述及HowNet中的中文词、英文词、中英文例句及义原定义，确定与当前概念对应的HowNet概念。由于HowNet与ImageNet不是同属WordNet框架，容易出现多个HowNet概念与ImageNet概念对应的情况，在进行HowNet概念选取时应选全、选准。

注意事项与典型问题：由于HowNet存在多层义原上下位关系，在进行选取时应选取最准确层次的义原。HowNet同一英文概念可能对应多个意思，需结合ImageNet中的图片选择最贴切的概念。例如“pillar”一词同时有“柱子”和“中流砥柱的人”两个HowNet概念，图片为一些重要的人物，则应该选择“中流砥柱的人”这一HowNet概念。

3)ImageNet概念与CCD的对应。ImageNet概念与CCD的对应指根据数据预处理结果形成与当前概念相匹配的CCD候选概念集合，根据ImageNet概念描述及CCD中的中文词、英文词、中英文定义及例句，确定与当前概念对应的CCD概念。

注意事项与典型问题：由于CCD与ImageNet同属WordNet框架，CCD概念与ImageNet概念对应较为准确，因此在进行概念对应时，应尽量选择一个与ImageNet概念对应最贴切的CCD概念。

2.4 标注一致性控制

为保证标注质量，本文标注采用多轮迭代修正的模式进行标注规范的修订和标注工作，整体标注分为测试标注和正式标注2个阶段。

测试标注阶段：标注人员熟悉多模态知识库构建平台的使用和标注流程，详细学习初步标注规范，每位标注人员分配少量任务进行标注。经过该阶段的标注，标注人员主要了解标注的任务和目标，通过本阶段的标注结果，讨论共性的不一致问题，逐步完善标注规范，当标注人员达到较高的一致性且标注规范基本完善后，进入正式标注阶段。

正式标注阶段：该阶段采用多轮迭代修正的模式进行标注，每一个ImageNet概念同时有2名标注人员进行标注。首先由一标负责人对ImageNet进行校对、选取HowNet概念和CCD概念，得到一标结果；然后由二标负责人对一标的标注结果进行检查验证，得到二标结果。如有一标二标标注不一致的地方，二人进行讨论并给出解决方案，最后再由一标负责人对标注结果进行确认，得到三标结果。对于标注过程分歧较多的情况，应着重讨论。所有标注工作完成后，使用一致性评价指标F值[24]进行一致性度量。

3 多模态知识库统计分析

3.1 标注结果分析

本文多模态知识库构建历时3个月，共11位标注人员参与标注，每个ImageNet概念由2个人进行3次标注以确保标注准确性。已标注完成ImageNet中21 455个名词及动词概念的映射，共删除图片6 205张，平均每个ImageNet概念删除0.29张图片；共标注CCD概念22 401个，平均每个ImageNet概念对应1.04个CCD概念；共标注HowNet概念16 442个，平均每个ImageNet概念对应0.77个HowNet概念。

CCD与HowNet匹配情况统计如表1，可以看到只有CCD标注和CCD与HowNet都标注的情况占了大多数，接近12%的数据CCD和HowNet都没有标注，极少数据只有HowNet标注。可以得出ImageNet概念中大部分都能够与CCD进行匹配的结论。

表1 CCD与HowNet匹配情况统计Tab. 1 Statistics of CCD and HowNet matching

删除不符合图片统计如表2，可以看到大部分的ImageNet概念中图片是没有删除的，但是由于存在ImageNet图片与该概念不符、图片重复和图片模糊等情况，约1/5的ImageNet概念中存在图片删除情况。

表2 删除不符合图片统计Tab. 2 Delete non-conforming picture statistics

CCD标注个数频数统计如图5，可以看到绝大多数CCD概念只标注了一个，这种情况是因为CCD与ImageNet同属WordNet框架，能够有更准确的概念对应，与标注规范预期吻合。HowNet标注个数频数统计如图6 ，可以看到有较多HowNet概念能够与ImageNet概念进行匹配，这种情况是因为HowNet不属于WordNet框架，概念之间对应不够准确，这种情况也与标注规范预期吻合。

图5 CCD标注个数频数统计Fig. 5 Statistics of number and frequency of CCD labels

图6 HowNet标注个数频数统计Fig. 6 Statistics of number and frequency of HowNet labels

3.2 标注一致性分析

标注一致性通常使用Kappa值[25]和F值进行评定。本文标注使用F值作为一致性评价标准，分别对ImageNet校对、HowNet标注和CCD标注进行标注一致性检验，表3列出了标注一致性检验的结果。从表中可以看出，不同标注任务的标注一致性存在差异，其中ImageNet校对和CCD标注的一致性较高，HowNet标注因与ImageNet构建架构不同、候选概念较多和义原上下位关系复杂等原因，一致性较低。总体标注一致性达到了0.880 3，高于0.8，可以认定该数据集是可信赖的[26]。

表3 标注一致性Tab. 3 Annotation consistence

3.3 标注结果存储

标注结果以csv格式进行存储，保存ImageNet概念的索引、ImageNet概念的ID、待删除图片的名称、标注的HowNet概念的ID和标注的CCD概念的ID，部分标注结果如图7。

图7 部分标注结果Fig. 7 Partial annotation results

4 结语

本文中文多模态知识库构建工作基于ImageNet、HowNet与CCD等3种形式的数据，制定了完整的标注规范，遵循这一规范，将ImageNet与HowNet及CCD通过概念建立联系，从而将图片信息引入到HowNet与CCD中，形成多模态知识的融合。本文通过对ImageNet概念的多轮标注，完成了ImageNet中21 455个名词及动词概念的映射。在此基础上，对标注结果进行了一系列的数据统计和分析，有助于发现3种数据之间的联系。本文多模态知识融合数据集可以为多模态领域的研究工作提供有效帮助。