城市大脑知识图谱构建及应用研究
2022-06-17马亚中张聪聪徐大鹏梅一多孙兴雷赵志宾王静宇
马亚中,张聪聪,徐大鹏,梅一多,孙兴雷,赵志宾,王静宇
(中关村科学城城市大脑股份有限公司,北京 100081)
0 引言
城市大脑是诞生在中国的原创科技成果,也是城市建设和前沿科技领域的热点,迄今为止,全国已经有数百个城市宣布建设城市大脑。相较于智慧城市侧重城市垂直领域产业升级,城市大脑着眼于全面的城市智能化建设,即从感知智能到认知智能的升级。研究指出[1],城市神经元网络和城市云反射弧将是城市大脑建设的重点。
在5G、大数据、人工智能、工业互联网等新一轮科技浪潮的推动下,大规模物联网传感器部署到城市中,涵盖智能生活、智能制造、智能交通、智能治理等领域(图1),领域内设备网络组成了城市当中的感知物联网系统,服务城市设施智能化升级和领域智慧化建设。
图1 智慧城市中的物联网
城市物联网设备运行按照领域进行划分、部署、联网和管理,建设往往有较为完整的接入平台和应用系统[2],提供数据采集、上传和分析等功能,如利用物联网建立医疗监控系统对病人的健康状况进行监测[3]。在物联网设备运行过程中,会产生大量数字、文本、图片、音视频等多种形式数据,然而设备与周边环境之间、不同领域设备之间存在信息无法打通、跨领域缺乏统一规范等问题,导致数据资源无法有效利用。
城市大脑的建设运营是解决上述问题的有效方法。其建设理念是将城市中的各类设备、城市部件、法规政策、事件等要素以一定的方式存储并接入到城市大脑中,实现城市神经元到城市大脑的连接,构建城市级知识库,满足城市管理和市民服务的需要[4]。
知识图谱技术将是融合城市多源异构数据的重要技术手段。知识图谱以资源描述框架(Resource Description Framework,RDF)[5]的形式对知识体系和实例数据进行统一表示,实现对多源异构数据的集成和融合。知识图谱同物联网技术一样,在智慧安防、智慧医疗、智慧交通等各城市领域中具有广泛的应用[6]。
城市大脑知识图谱具备以下意义: ①通过将城市治理、社会服务、城市事件、民生事件、多领域、多部门领域知识等多源数据接入知识图谱,形成广泛的城市大脑知识图谱; ②基于城市大脑知识图谱,通过运用图计算、图匹配、社区发现等算法充分挖掘数据节点之间的关系,实现对知识的发现、表示、推理和认识[7],有利于解决城市中的疑难问题; ③突出城市物联网本体和城市事件概念,有效解决知识图谱构建中的知识可获取问题,增强了知识图谱更新与应用中的主动性; ④以城市大脑知识图谱为支撑的人工智能有助于解决目前人工智能在城市安防、政务领域中存在的可解释、安全和依赖大数据等方面的问题。基于对当前技术发展和城市大脑建设实际情况分析,目标是建设可落地的城市大脑知识图谱,围绕该目标,该文的主要工作有4个方面:
(1) 围绕城市大脑建设需求和当前技术发展,提出基于物联网oneM2M[8]本体(Ontology)模型 的知识图谱构建思路。
(2) 在物联网本体基础上,设计满足城市大脑的知识图谱模型和本体构建方法。
(3) 以城市事件(Event)为例,分析并设计了一种事件联合抽取语言模型,相较单模型时效和精度都有一定的提高。
(4) 对城市大脑知识图谱的主要应用进行了较深入的分析与探究。
1 城市大脑知识图谱模型
1.1 知识图谱概念
知识图谱以结构化的形式描述客观世界中概念、实体间的复杂关系,逻辑上可以分为概念层和数据层。概念层属于本体集合,本体是对具有相同属性事物的概括和抽象,数据层是指以三元组为表现形式的客观事实集合。根据建设顺序又分为自顶向下型和自底向上型两种模式,前者适用于场景较为固定、行业逻辑可量化的领域,后者适用于复杂场景下的图谱构建,实际应用中通常是自顶向下的知识工程和自底向上的知识学习方法相结合。
本体模型和实体数据库是知识图谱的核心,常见的知识图谱DBpedia[9]、YAGO[10]、NELL[11]和KnowledgeVault[12]本体模型、数据层的定义满足三元组准则。知识图谱本体OKG包括实体类型C(E)、属性类型C(A)以及关系类型C(R),具体表示如式(1)所示。
OKG={C(E),C)(R),C(A)}
(1)
oneM2M[8]利用知识图谱中的类、属性和关系概念来设计物联网本体,解决了不同设备服务层之间的通信和互操作,主要类型包括物体(Thing)、设备(Device)、服务(Service)、功能(Function)等(图2) 。物体(Thing)是系统中可以被辨别的实体,例如,用oneM2M标准对建筑物类建模,每一个建筑物都是物体实例,物体拥有客体属性(hasThingProperty),如房间具有温度属性,临近的建筑之间也会相连接(hasThingRelation)。物体无法直接与周围环境进行通信,如果它承载的某部分可以与环境以电子信息方式进行交互,则这类物体称为设备(Device)。基于物联网本体构建的知识图谱可以较容易地接入和管理城市物联网设备。
图2 oneM2M本体示意图
1.2 城市大脑知识图谱设计
物联网协议设计存在多个标准,如oneM2M、LWM2M、FIWARE等,不同的标准之间存在兼容性问题[13],无法借助某一标准纳入所有的设备。以知识图谱作为物联网本体的上层概念可以解决不同标准的设备信息互通问题。城市大脑知识图谱除了关于物联网设备的类型描述,还有运行状态、地理信息、维护人信息、厂商信息等。在物联网知识图谱概念上接入城市要素[14],可以使其满足城市复杂场景下的知识图谱本体。
城市作为复杂系统,无法设计出满足所有事物的本体系统,但基本上属于“人”“物”“事”范畴。这里的“人”包括自然人、组织和部门等各类主体,“物”包括地址、楼宇、物联网设备等客观存在,“事”包括城市事件、规章制度、新闻等。将“人”“物”“事”为核心的城市要素融入物联网本体系统可以得到覆盖城市基本概念的知识本体,在此基础上延伸出9类城市本体,包括: 设备(Device)、服务(Service)、功能(Function)、部件(Thing)、管理(Management)、事件(Event)、区域(Area)、领域(Field)和规则(Rule),具体如图3所示。
图3 城市大脑知识图谱本体
部件(Thing)代表了城市中可识别的实体概念,oneM2M中Thing是相对于物联网设备存在的实体概念,城市部件可以无设备关联。部件可以与其他实体概念具有关系,例如,道路井盖作为部件,承载了位移传感器,城市中的部件还具有所属区域、管理者等属性。
设备(Device)是一类可进行信息交互的实体概念,包括城市中的硬件、软件、无线传感器和执行器等。设备可以相互连接到网络并能够传输数据,无须人工干预即可自动在对象或人员之间进行数据传输。
服务(Service)属于物联网概念,即设备所能提供的服务能力,例如,安装在井盖上面的传感器设备可以提供实时的井盖状态监测服务。
功能(Function)属于物联网概念,即设备所发挥的有利作用,例如,当井盖发生异常时传感器具有异常报警、异常数据上传等功能。
管理(Management)即城市中管理者的角色概念,属于城市治理的主要组成,其主要关系包含对城市事件的处理、规章制度的制定与遵守、部件的管理与维护等。例如,消防人员具有对辖区内消防通道的管理和突发消防事件的处置职责。
规章(Rule)包括与部件、设备和管理者相关的领域规则、行业规范、规章流程等概念。如火警传感器报警将通过规则启动相应预案,包括消防出警流程、处置流程等信息。
区域(Area)表示城市地址信息和行政区划,城市中的事件、部件、设备等一般具有关联地址,通过区域本体之间从空间维度上进行关联,进而实现对部件的POI分析。区域具有子类(Subclass),如区县、街道(乡、镇)、社区、小区等类,区域属性中包含空间地理坐标信息,实现地图可落点。
事件(Event)表示城市当中发生的各类事件集合,反映了外部条件的变化,可以是客观条件变化如暴雨暴雪、扬沙天气,或城市治理事件如渣土车超载,突发事件如疫情防控等。事件具有地点、领域等要素,设备(Device)可以对事件进行监测。
领域(Field)概念主要涉及设备(Device)、事件(Event)、管理(Management)、规章(Rule)等本体,通过领域关系可以缩小本体范围,例如,通过对事件划分领域实现与规章和管理的关联。通过领域概念容易实现领域知识图谱(Domain-specific Knowledge Graph,DKG)的扩展[15]。
根据式(1),实体概念集合可以表示为C(E)={E(Device),E(Service),E(Function),…,E(Rule)},关系概念集合表示为C(R)={occourIn,triggerTo,handdleOn,referTo,belongTo, installOn, …}。两个实体间既可以有单向关系,也可以是双向关系或多种关系,如事件与部件之间的关系用triggerTo表示,事件可以触发相关的部件及其附属设备变化,如暴雪天气事件引发道路的结冰,使得道路结冰传感器发生变化,同时部件及传感器对事件具有监测(Monitor)关系。管理(Management)与规章制度(Rule)之间存在参考(referTo)关系,同时管理也可以制定(drawUp)相应的规章制度。
1.3 城市大脑知识图谱接入
采用自顶向下的知识工程设计方法可快速形成城市知识图谱本体(图3)。依据本体接入多源知识,包括知识抽取、本体学习融合、数据融合、质量评价、更新本体。接入的数据一般来源于多部门、多渠道,数据形式包括物联网数据、文本数据、视频音频等。
多源知识图谱融合方法分为基于多领域知识图谱的融合方法和基于多源异构数据的融合方法[15],将不同领域的知识图谱融合是快速构建知识图谱的重要方法,不同领域知识图谱的融合方法包括概念融合、实体对齐、属性对齐和属性值融合等步骤;基于多源异构数据的融合方法包括基于非结构化抽取、结构化映射的知识抽取和基于已有图谱的知识推理以及知识准确率评估等步骤。
通过对接入的子本体、领域本体进行学习、消歧,实现知识概念的融合,通过质量评价对融合结果纠正,最终形成知识图谱并更新本体,自下而上的消息知识接入流程如图4所示。在自下而上的过程中,可以实现本体动态完善流程,最终形成城市场景下的知识本体。
图4 自下而上的多源知识接入流程图
知识学习采用自下而上子本体互相叠加形成完整本体,更加符合城市大脑知识图谱建设流程。因此,若将i个类型本体定义为Ai则包含所有本体S(OKG)的定义如式(2)所示。
(2)
2 城市大脑知识图谱构建实例
2.1 实例构建
以北京市海淀区城市智能物联网设备和属地信息要素作为数据来源,构建服务城市管理和治理的知识图谱。海淀区作为信息化和智能化较高的区域,在电子政务、社会管理等方面具有较规范化的数据,以物联网数据为例,目前具有20多类物联网设备,涉及环保、市政、消防、安全等领域,相关数据信息主要为结构化数据,如设备、功能、区域等;部分为半结构化、非结构化数据,如城市事件、政策法规等。在数据特点上,城市中的概念存在较多层级,即相同类型节点具有子类或父类,利用概念层级(level)对每类进行划分,以消防为例,消防传感器概念具有子类(Subclass of)关系,其管理者消防队具有子部门关系(Subpart of),示意如图5所示,实体形式如表1所示。
图5 消防层级示例
2.2 事件抽取
事件属于重要的城市要素,对地震、火灾、交通拥堵等事件从知识图谱和事理角度分析,建立事件、地点、主体、管理等本体之间的关系,有助于城市问题的深度挖掘和治理。本例中数据来自市民热线,来源渠道包括电话记录、微博、微信等,文本结构以非结构化为主。事件抽取是该类数据转换为知识图谱的关键步骤。
事件抽取包括两类任务[16]: 一类是事件识别,另一类是事件论元角色抽取,Chen等[17]提出基于DMCNN(动态多池化卷积神经网络),该方法利用管线式(pipeline)的事件抽取方案,即对触发词、论元的检测与识别分步进行,后者依赖于前者的预测结果,这种方法容易产生级联错误。Liu等[18]认为触发词与检测事件无关,提出基于注意力机制的类型感知偏向神经网络(TBNNAM),根据目标事件类型对句子的表示进行编码。实验结果证明该方法与使用带注释的触发器方法相比具有明显优势。
该文对事件类型识别、论元角色及论元抽取建立联合抽取任务,解决了触发词稀缺和级联错误问题,基于论元的抽取结果可以更好地融入知识图谱。对信件建模分析其所属类型,对应图谱中的领域(Field)(表1),类别和论元预先设计,事件类型划分为消防通道-占用、河道水质-倾倒垃圾、桥梁-超重超载等,论元角色包括倾倒者、发生地点、时间名称等,并在原文中对论元进行标注,如表2所示。
表1 知识图谱实体分类体系
表2 信件数据示例
对事件类别(Event type)建立文本分类任务,论元(Argument)和角色(Role)建立序列标注任务,其中论元为文本中存在连续标注词,角色为标注类别,针对二者建立多任务联合抽取模型。
2.3 算法设计
以RoBERTa作为预训练模型对事件进行联合抽取实验,RoBERTa模型[19]在模型结构上对BERT模型进行了改进,预训练阶段采用更多的训练样本、更大的批处理量和更长的训练时间,并去除了针对NSP(Next Sentence Prediction)句子理解的训练设计。RoBERTa-WWM在预训练阶段使用分词器对样本数据进行分词,对组成同一个词的汉字全部进行遮掩,即全词遮掩(Whole Word Masking,WWM)[20]。
序列标注一般采用神经网络(LSTM、BERT)对每个字符(token)进行BIO+标签的分类学习,神经网络可以学习观测序列特征,但并不能很好地考虑观测序列依赖关系,加入条件随机场CRF(Conditional Random Field)能够对观测序列建模[21],更好地预测序列标注中的标签顺序。假定句子长度为T,句子序列为X=(x1,x2,…,xT),对应的预测标签序列为Y=(y1,y2,…,yT),该某一观测序列概率分数定义如式(3)所示。
(3)
其中,A为CRF层的转移矩阵,表示标签间的转移分数,Ayi,yi +1表示从标签Ayi到标签Ayi,yi +1的转移分数,y0和yT+1表示句子的开始与结束标签,Pi,yi表示i个字符对应标签yi的分数,对标签序列Y的总概率如式(4)所示。
(4)
进一步对p(Y|X)取负对数,得到训练中优化目标,以YX表示输入序列X所对应的所有可能标签,序列标注的损失函数如式(5)所示。
(5)
事件类别即文本分类任务,采用Transformer Encoder对文本编码,以[CLS]字符输出表征文本的类别,与事件类别标签做交叉熵损失,分类损失函数表示为如式(6)所示。
(6)
其中,M为事件类别数量,则联合损失函数如式(7)所示。
Ltotal=Largu+Ltype
(7)
通过对单模型构造不同任务的联合损失函数,实现联合抽取模型的整体结构,如图6所示。
图6 联合抽取模型结构
2.4 实验结果对比及分析
本实验数据经过处理,选取事件类型52种,选取角色(Role)3种,即地点、主体、事件,约5万条文本数据,按照8∶1∶1划分训练集、验证集、测试集,一台Tesla V100 GPU进行加速训练,RoBERTa预训练语言模型采用哈工大-讯飞研究室发布的RoBERTa-wwm-ext[20],设计了4组实验: 单任务论元识别采用RoBERTa+CRF模型,单任务事件分类采用RoBERTa 进行分类微调,事件类别和论元采用基于RoBERTa的联合抽取模型(见图6)进行实验对比,进一步采用RoBERTa-large模型与RoBERTa对比效果,以精准度(Precision,P)、召回率(Recall,R)、F1值(F1-score,F1)作为评价指标,表3为不同模型抽取测试集结果。
表3 不同模型比较表 (单位: %)
从结果可以看到,联合抽取模型较单任务事件分类任务F1从85.2%提升到85.6%,较单任务论元识别F1值从81.0%提升到83.7%,联合抽取模型对于论元识别有较大提高,对于事件类别识别稍有提高。分析原因是联合任务可以使得不同任务间相互促进,参数共享实现任务之间相互约束,提高泛化能力,减少模型级联错误传递并提高推理速度。相同条件下,利用更大的预训练模型RoBERTa-wwm-ext-large对事件分类和论元抽取,结果较RoBERTa Joint model分别提升1.4%和1.1%,具有较明显的提升。相对基础模型,更大的预训练模型的层数和隐藏层维度、 注意力头(attention head) 数都有增加,因此具有更强的知识学习和迁移能力。同时,由于参数的增加推理速度较前者变慢,在实际使用中需要根据业务场景和需求进行权衡。
3 城市大脑知识图谱应用
知识图谱构建完成后存储于存储图数据库Nebula Graph中,便于后续对图数据进一步探索和挖掘。数据库可以通过整合不同维度信息,对事件、知识、政策等进行同源性、关联性分析,实现对城市知识数据的有效利用和挖掘。
3.1 案件智能化处理中的应用
城市大脑知识图谱在案件智能处理中将发挥重要作用,示例如图7所示。当占用消防车道事件发生,消防通道传感器(Device)的功能(Function)记录相关信息,服务(Service)将记录占用者信息并报警,将占用车车牌等详细信息反馈给案件管理(Management),管理者再根据地址区域(Area)、规章(Rule)等信息对违章停车事件快速干预处理,做到未诉先办。与此同时,市民热线投诉消防通道占用,通过事件抽取模型将非结构化文本抽取出事件的地址(Area)、事件类型(Field)和主体等信息,综合二者确立案件派发处理人。管理方面将会参考(referTo)相关规章制度(Rule)执行相应的操作。
图7 案件智能化处理应用示例
3.2 结合物联网的应用
物联网本体属于城市大脑知识图谱顶层设计的一部分,因此可以接入相关设备数据,这使得设备和被监测对象在知识图谱层面具有宏观语义关联,从而发现更深层的关联关系和应用。通过接入动态的物联网数据,知识图谱具有了主动发现和解决问题的可能。例如对河道水质的监控,通常是通过水质传感器监测,而城市大脑知识图谱可以根据区域(Area)内有毒有害、水量、井盖等多种传感器(Thing)信息和相关事件舆情、水系及管理者信息,综合利用多传感器和知识推理算法,实现对河道水质的监控和综合处置。
3.3 结合GIS的应用
城市知识图谱利用强大灵活的知识表示能力,将空间数据和非空间数据结合,通过加入空间实体的坐标和边界,可以实现空间的推理,在地址实体消歧和地址标准化推荐方面具有重要应用。具体地,在涉及地理信息的智能对话中,市民可能会咨询“北京可以接种疫苗的三甲级医疗机构都在哪些地方?”,管理人员想了解“北京市由铁路局负责的下穿铁路的桥都在哪里”,通过知识图谱语义问答(KBQA)和GIS的结合,将位置和相应属性综合返回,实现知识和地图的可访问及互操作,为市民和管理者提供便利。另外,借助知识图谱,地理人工智能(GeoAI)在城市交通和人口迁徙数据的关系挖掘和智能化应用中发挥重要作用。
4 结语
该文利用城市物联网本体概念,以城市要素为基础,提出一种覆盖全面、层次分明的城市大脑知识图谱(CBKG)构建方法,并设计联合学习模型对城市事件进行抽取,取得较好效果,讨论了城市大脑知识图谱的潜在应用价值。同时,也认识到构建覆盖城市方方面面的知识图谱还存在困难,比如如何处理城市级数据能力、数据时效性、平衡安全性和数据接入公平性、大数据标注等方面都存在较多问题。
未来我们将继续对城市大脑知识图谱生命周期进行探索,借助NLP领域预训练模型、图神经网络等技术,优化图谱的构建过程。利用人工智能、多传感器融合、GIS等技术探索大规模城市级知识图谱的应用,进一步支撑城市智能化治理和精细化服务。