APP下载

基于本体和产生式规则的自主式交通系统演化研究

2023-09-27庹昊南何明帆唐进君

交通运输研究 2023年4期
关键词:实例本体要素

庹昊南,刘 佑,付 强,何明帆,唐进君,熊 宸

(1.中南大学交通运输工程学院,湖南 长沙 410075;2.中山大学深圳校区智能工程学院,广东 深圳 518107)

0 引言

智能交通系统(Intelligent Transportation System,ITS)通过融合人、车、路和技术,显著改善了交通出行的安全、效率和环境问题。但随着交通出行需求的转变,用户希望获得“主动式”的系统服务,因此,自组织运作与主动服务成为交通系统发展的新方向。在此背景下,智能交通系统过渡到自主式交通系统(Autonomous Transportation System,ATS)[1],改变了交通系统的传统模式,面向车辆协同服务[2]等业务场景,依托下一代通信、智能计算[3]等新兴技术,基于感知、学习、决策、响应的自主化逻辑,形成了新一代交通系统指导框架。ATS 的构建过程参考了2005 年中国智能交通系统体系框架(第二版)[4],并将服务域由9 个拓展到12 个[5]。相较于ITS,ATS 出现了更多自主性元素,以提供主动式交通服务。

从系统论的角度,系统的结构、状态等会在时间维度不断发生变化[6],因而系统具备演化性。ATS 作为系统的一种,同样存在演化机制,各要素之间的相互作用关系是推动其演化的主要动力[7],因此,研究ATS 要素之间的关系能够推断系统架构的变动,从而探索系统演化特性,阐释自组织演化机制。既有研究多集中于交通方式、交通流、交通子系统能力的演化模型。颜姜慧[8]认为智能汽车是未来核心的出行方式,着重将智能汽车作为智慧交通系统自组织演化的序参量,定性地构建了智慧交通系统序参量方程,但对智能汽车以外的要素未做探讨。赵学彧等[9]建立了轨道交通和公交的竞合机制模型,解析了这两种出行方式在不同时期的竞争合作关系的演化机制。Biham 等[10]基于动力学模型开展了交通流演化理论的研究。Younes 等[11]提出了一种流量评估和拥堵检测协议,可以检测城市网格布局区域中交通拥堵严重的路段,探究了拥堵随时间的演变情况。马庆禄等[12]根据交通流理论,构建拥堵演化模型,并对智能网联车辆在不同渗透率下的拥堵情况进行了模拟,分析了不同渗透率对于缓解拥堵的效果。Sun等[13]将全球的机场、航线分别视为节点、边,从复杂系统角度衡量了COVID-19对航空运输系统的影响,分析了全球机场网络的时空演变特征。邵志国等[14]基于生态学Logistic 模型,对区域交通基础设施的演化动力进行了研究。

总体而言,当前演化机制研究或仅针对交通子系统,或忽视了系统内部要素之间的关联性。面向整个交通系统架构,针对要素作用方式及其对交通系统网络形态影响的研究较少。但系统工程强调整体性,只有全局考量结构、功能之间的关联、制约和促进关系,才能准确审视系统的发展,以利于管理者作出决策。因此,研究交通系统要素的相互联系和作用方式的变化,揭示宏观交通系统架构演化机理,具有重要的现实意义。

鉴于此,本文以自主式交通系统为研究对象,基于文本挖掘的方法获取若干系统要素;基于本体理论,建立多种要素之间的语义关系,构建自主式交通系统的知识模型;基于产生式规则的知识推理方法,推理自主式交通系统知识模型,并计算推理前后的网络特性,对比分析交通系统要素间相互作用关系对系统演化的影响。

1 基于文本挖掘方法抽取ATS 本体要素

1.1 本体简述及ATS本体要素抽取流程

本体(Ontology)作为描述事物的概念化规范[15],能够使用明确的语言描述有限范围内事物,并厘清研究对象的知识结构。本体拥有6 项基本要素:概念(Concept)、属性(Property)、关系(Relationship)、实例(Instance)、规则(Rule)和公理(Axiom),通过搭建交通要素的层级结构和关联关系,能够形成交通本体,从而结构化表达交通领域知识,将交通领域的静态知识与动态操作知识独立开[16]。本体应用包括语义检索、知识推理等[17]。

诸多研究[18-20]构建了交通系统或子系统的本体,但其构建过程依赖大量人工,主要原因在于提炼概念和发现实例的过程成本较高。为在一定程度上减轻人工干预,基于文本挖掘方法抽取概念和实例。本体的属性、关系、规则通常由人工直接确定。抽取流程如图1所示。第1.2节数据集成与预处理,作用是对原始语料进行数据整合和数据预处理,从而形成质量语料库。第1.3 节、1.4 节分别构建LDA 模型和BERT-BiLSTM-CRF模型,从语料库中抽取ATS 概念和实例。需要说明的是,由于ATS 是复杂的巨系统,对概念和实例存在一定约束,故而在概念抽取和实例抽取阶段,会根据前向课题的输出和ATS 构建需要,有针对性地进行人工校正。

1.2 数据集成与预处理

从政府部门网站、书籍报刊等数据源收集文本语料,满足构建自主式交通本体的数据基础。本文数据源主要包括交通系统框架方面的权威著作《智能交通系统体系框架原理与应用》[21]、国家相关管理规定如《道路危险货物运输管理规定》及其他文献。形成的文档库包含了部分无关文本,对最终的语料库而言是一种信息干扰,因此需要对数据进行预处理,提升语料的质量,同时也是为词嵌入和特征研究作必要准备。

首先,经过文本分类,过滤资料文件,判别其是否属于交通领域,剔除与交通无关的内容,例如交通应用程序接口设计文档、数据传输协议文档等不属于研究范畴。其次,中文文本不同于英文文本,不以空格作为分隔符,无法直接清洗数据。因此,在数据清洗前必须对中文句子进行分词处理,正确的分词有利于提升概念抽取的准确度。分词利用了Jieba分词工具,并引入了用户词典,词典中增加了交通领域词汇以进一步提升分词效果。分词后的语料含有大量的数字字符、英文字符、标点符号等非常规字符,这些字符对于概念的表示没有任何意义。同时包含了对建模意义不大的停用词如连词(“因为”)、常见词(“章”)、虚词、语气词等,以上出现频率较高的词语会影响整个语料的词汇分布,因而有必要进行数据清洗。清洗无关字符和常用中文词语的手段包括正则匹配后删除、导入停用词词表后删除。最后,词性标注是为每个词标注正确的词类,包括名词、形容词、介词等。词性标注可辅助概念抽取,使模型仅输出名词类的结果。

1.3 概念抽取

狄利克雷分布[22](Latent Dirichlet Allocation,LDA),是基于三层贝叶斯概率模型的主题生成模型,该模型假设了“由文档确定主题服从多项式分布、由主题确定词服从多项式分布”的过程,其模型表示如图2 所示。其中,M,K分别代表文档数量、主题数;θm,φk分别代表文档m的主题分布矩阵与主题k的词分布矩阵,大小分别为M×K,K×V;α是文档-主题先验分布的Dirichlet 分布参数,β是主题-词先验分布的Dirichlet 分布参数;W,Z分别为可观测词及其潜在的主题。方框表示重复抽样。首先,由Dirichlet 分布生成文档di的主题分布从θm中抽取出主题Zm,n;其次,生成主题对应的词分布抽取词Wm,n。基于Python第三方库gensim.ldamodel[23]训练LDA 语言模型,其关键参数包括:主题数num_topics=1,主题词个数num_words=3,整个语料的训练轮次passes=20,迭代次数iterations=1000,ID 映射字典采用BoW词袋模型,α,β通过自动学习得到。

图2 LDA主题模型结构

针对不同数据源,LDA 给出的结果及实际确立概念如表1所示。模型输出结果的描述形式为:"主题词"(概率)[24]。概率越大表明该主题词越能代表数据源的中心词。同时根据ATS 架构的需要,有针对性地对概念进行人工删减和改动,从而确立出实际概念。

表1 基于LDA模型挖掘的概念示例

1.4 实例抽取

抽取若干核心词语作为自主式交通本体的实例,尽管已经有成熟的关键词抽取算法,如TFIDF、TextRank[28]等,但较为依赖词频,倾向于频繁出现的词,而上下文信息对于关键词而言尤为重要。鉴于此,利用神经网络BiLSTM 模型提取双向文本信息,加上CRF 层最大概率确保临近字符的依赖关系[29]。将BERT 作为预训练模型,其作为一种自监督学习的端到端(End-to-End)模型[30],充分融合语境特征和语义信息,优化BiLSTM-CRF预测标签的性能,从而增强实例抽取的效果。本文基于预先训练好的BERT-BiLSTMCRF 实体抽取模型(模型结构如图3所示,其中,X是简略表示的实例标签,O表示非实例),得到若干实例。同时参照自主式交通体系架构前向课题输出的规范要素,确认了实例的命名。

图3 BERT-BiLSTM-CRF模型

2 自主式交通知识建模及可视化

第1章获取了自主式交通领域的概念和实例,第2 章则是将概念和实例通过一定的逻辑方式组织起来,形成自主式交通系统本体,即实现对自主式交通系统的知识建模。利用图数据库作为本体存储的载体,并实现自主式交通系统本体的可视化。

2.1 自主式交通本体构建

自主式交通本体构建是定义概念及实例的组织方式,从而形成语义网络。其过程包括4 个主要步骤[31](见图4)。

图4 自主式交通系统本体构建流程

步骤1:定义概念间的上下位关系。通过定义概念的包含与被包含关系,形成上下位概念的层级结构。如服务包含子服务,功能包含子功能等。关系用<概念A,关系,概念B>简要表示,服务包含子服务可表示为<服务,包含,子服务>。

步骤2:定义概念间的非上下位关系。通过定义非上下位概念间的动作、过程等关系,形成概念间的实体链接,进一步形成概念网。非上下位关系包括<功能,应用,技术>,<子功能,应用,设备>等。

步骤3:定义概念的属性。属性是描述该概念特征、特性、参数的信息,可用来区分不同的概念,以属性值对表示。

步骤4:填充概念的实例。实例是概念在数据层面的映射,是本体的底层对象。填充实例后,自主式交通本体构建完成。

经过上述步骤,形成自主式交通系统本体。图5中展示的局部概念网络主要围绕ATS的服务,概念以有向线段连接,表示关系的方向。图5 列举了数据流的属性作为属性的说明示例。

图5 自主式交通系统概念网络

2.2 基于图数据库的自主式交通本体存储

图数据库(Graph Database)是以节点和边组成的数据库管理系统。能够可视化数据及其关系,能够处理知识的语义关系是图数据库的优势,应用包括本体存储、知识检索和知识推理等。ATS 本体存储选择图数据库TypeDB,相较于其他数据库如Neo4J 而言,实现知识推理的成本更低。TypeDB 采用E-R 模型(实体-关系模型)作为存储数据的策略,除关系用菱形表示外,其他与图5 中的ATS 概念网络表达方式基本吻合,因此是实施ATS 本体存储及后续知识推理的理想工具。

基于图数据库TypeDB 的数据库关键字组成操作语句,创建ATS 概念,指定概念间的关系,声明概念具有的属性,通过批量导入ATS 实例实现本体存储。

2.3 本体可视化

数据库的直接作用是查询数据,图数据库不仅可以直接查询某个ATS 目标要素,还可以根据语义关联查询链接的要素,并以图的形式返回查询结果。如查询“车载视觉感知”子服务包含哪些功能,且要求功能的名称包含“视频”。

执行查询语句,最终返回“车载视觉感知”子服务包含的“存储导入与分析环境视频数据”和“采集环境视频数据”两项功能及语义关系(见图6)。其中,矩形表示实例,菱形表示关系,椭圆形表示属性。

图6 语义查询结果

3 基于产生式规则推理的自主式交通系统演化

第2 章实现了自主式交通系统知识模型的构建,接下来对本体开展应用研究,即知识推理,其目的是挖掘要素间隐含关系[32],探究自主式交通系统演化机制。推理的方法为基于产生式规则的知识推理方法。

3.1 产生式规则

形成自主式交通本体后,能够进一步实现知识推理。推理是为探究交通系统架构的演化机理,同时可以验证自主式交通本体语义功能。知识推理的方法基于产生式规则,产生式规则由条件和结论组成。例如,存在条件为“A与B、B与C分别是朋友关系”。此时若假定规则为“朋友的朋友仍具有朋友关系”,则可以推导出结论为“A与C 是朋友关系”。产生式规则是动作函数的表达,能够清晰地表达逻辑推理过程,适合解决在直观性、可读性方面有需求的规则表述问题。产生式规则有如下定义。

规则库由众多规则组成,表示为式(1):

式(1)中:R为规则库;Ri为规则库中的1 条具体规则。

规则Ri的书写格式遵循语义网规则语言[33](Semantic Web Rule Language,SWRL)。其组成为条件体和执行体,规则定义如式(2)所示:

式(2)中:Pi为条件体,代表推理的前提;Qi为执行体,代表推理的推论。

条件体P通常由多个条件构成,如式(3)所示。

当所有条件为真(即条件满足)的情况下,才能得到Q为真的推论。如式(4)所示,条件之间为“∧”(且)关系。

基于上述产生式规则,设定本体概念及语义关系为条件,推断出的新关系为推论。因为实例是概念的个体数据,所以本体概念间的产生式规则可以指导实例的推理。因此,考虑基于产生式规则的知识推理方法,通过为自主式交通本体概念设立规则库,推理实例层的关系变化。

3.2 实证分析

选取ATS 交叉口自动驾驶场景作为知识推理的示例。该场景由若干子服务组成,定义为车联网环境下自动驾驶车辆通过交叉口。首先,依据知识模型,创建面向交叉口的自动驾驶场景要素网络。其次,设立系统演化规则,输入要素网络中进行推理。最后,计算推理前后的网络特征,分析要素网络的演化机理。

3.2.1 系统演化规则定义

依据自主式交通本体,有针对性地设置演化规则。例如,子功能是对功能的拆解,子功能应用的技术和实现逻辑都与功能同步,通过功能与子功能的关系、功能与技术的关系、功能与逻辑的关系等设定演化规则。表2 展现了考虑概念相互作用所设定的自定义规则式。知识推理的特点在于不仅能够实现如规则1 和规则2 的一次推理级别,还实现了如规则3的二次推理。二次推理是在一次推理的基础上展开再次推理,其实质是利用一次推理的结论(<子功能,依靠,逻辑>),将其作为该条推理规则的条件,进而得到新的推论。

表2 系统架构演化的推理规则与推理级别

3.2.2 系统演化结果及分析

从局部观察,ATS 系统演化的结果为要素之间产生了新的连线(虚线为加入推理规则后,推理得到的连线),“子功能应用技术”的关系在实例间被挖掘出来,该子功能“生成通信协议与转化格式”与技术“计算技术”间建立“子功能应用技术”的直接关系。推理后的局部自主式交通本体见图7。

图7 推理后的局部自主式交通本体

从全局统计,推理前自动驾驶场景要素网络共有706 条关系(见表3),网络呈树状结构,如图8(a)所示。推理后为1 169 条关系,呈多中心结构,如图8(b)所示。借助推理方法,共推理出463 条新关系,实现了要素间隐含语义关系的挖掘,促使自主式交通系统的要素网络演化,使得ATS要素网络更加健壮。

表3 推理前后网络性质对比

图8 交叉口场景下ATS要素网络推理对比图

计算ATS 网络性质指标,对比分析推理前后网络发生的变化。计算指标包括平均度、平均路径长度和图密度,计算结果见表3。平均度是平均每个节点拥有的边数量,由推理前的1.418 增加至推理后的2.347,印证了该方法推理出463 条关系的结果。平均路径长度反映任意两个节点之间距离的平均值,由推理前的1.940 降至推理后的1.745,表明连通任意两节点所需中转的次数越少,网络效率越高。图密度衡量网络完整性,ATS要素网络的图密度增加了0.002,表明网络由稀疏演化为稠密。本质上,ATS 的演化是一个从简单到复杂、从非完备到逐渐完备的过程,系统通过不断地挖掘要素之间的潜在通路,释放系统架构的能力,满足交通出行的需求。

4 结束语

本文首先基于本体理论建立了自主式交通知识模型,接着依据知识模型构建了交叉口自动驾驶要素网络,利用产生式规则推理该要素网络,研究了自主式交通要素的相互作用关系,通过计算网络平均度等指标,对比分析了推理前后的网络特征,从而得出结论:自主式交通系统的演化是其网络形态从稀疏发展为稠密,网络效率逐步提升的过程。基于本体的知识建模方法与基于产生式规则的知识推理方法探索了自主式交通系统架构的发展规律,能够为交通系统演化机制研究提供思路。

本研究尚有不足之处:首先,LDA 主题模型和BERT-BiLSTM-CRF 提升了抽取要素的效率,减轻了人工干预程度,但为精确地响应自主式交通系统框架的定义,包括要素增删与修正等工作仍需人工介入;其次,要素间的关系依靠人工定义,原因在于本体对关系的明确化程度要求较高,而关系自动化抽取的稳定性难以保证。在后续研究中将优化面向交通文本抽取关系的方法。

猜你喜欢

实例本体要素
Abstracts and Key Words
掌握这6点要素,让肥水更高效
观赏植物的色彩要素在家居设计中的应用
论美术中“七大要素”的辩证关系
也谈做人的要素
《我应该感到自豪才对》的本体性教学内容及启示
完形填空Ⅱ
完形填空Ⅰ
专题
Care about the virtue moral education