基于模板和规则的声明式代码生成

2022-03-21北方工业大学冯俊辉刘晨郭浩然

数字技术与应用 2022年2期

北方工业大学冯俊辉刘晨郭浩然

Drools是开源业务规则引擎，规范的Drools规则代码具备简短、声明式、可读性强等特性。目前，Drools规则代码需人工编写，缺少一套机制自动生成代码。本文中，提出一套基于模板和规则的机制以生成声明式Drools规则代码，并针对物联网环境，构建了7500条Drools规则。基于构建的规则集，对本文提出的系统架构进行了验证，并取得了一定成果。

高级编程语言依据编程规范，分为命令式语言、声明式语言。官方规范的Drools规则语言是声明式的，包含命令式、条件式代码的复杂规则可转换为多条声明式规则。Drools作为推理引擎，可用于物联网环境，依据规则以及规则间的推理关系实现物联网设备的自动控制。

但是，非技术人员无法编写Drools规则代码。为解决该问题，本文提出基于模板和规则的方法帮助用户从受限自然语言生成Drools规则。基于模板的代码生成(TBCG)是从高级规范生成代码的合成技术，可根据模板计算动态部分，是模型驱动工程(MDE)中的流行技术。基于规则的代码生成是开发人员依据经验或者先验知识、事实等制定的一种策略，为自然语言到自然语言、代码之间的转换提供了依据。

目前，自然语言到代码生成的研究主要聚焦于TEXT2SQL任务，忽略了其他领域基于自然语言生成代码的需求，本文正好弥补了这一缺陷。

1 Drools规则模板

Drools规则作为Drools引擎推理依据，由规则名、属性、条件部分(LHS)、动作部分(RHS)组成。结合物联网环境、Drools规则代码特点，制定如图1所示模板。

图1 Drools规则模板Fig.1 Drools rule template

模板中：ruleName为规则名、ClassName为系统类名、instanceName为类实例对象名、Field为类属性、Operator为操作符、Value为属性值、AND|OR为逻辑符合、Method为方法名。

本文提出的架构结合Drools规则模板，可解析用户输入的受限自然语言以替换上述模板内容，自动生成Drools规则。

2 系统架构

本文基于模板和规则的方法提出如图2所示框架。

图2 Drools规则代码自动生成框架Fig.2 Drools rule code automatic generation framework

框架以自然语句作为输入，将复杂自然语句切为多条简单自然语句。采用Semantic Analysis、Template Analysis，对简单自然语句进行语法、模板分析，解析结果与Java类文件、类文件描述、Drools规则模板输入Drools规则生成器。最终，由Drools规则生成器输出自然语句对应的Drools规则。其中，Java文件则为系统类文件，Java描述文件则是对类、类方法、成员属性进行功能描述的文件。

2.1 Split Statement

Split Statement负责切分复杂自然语句，将包含多个and、or复合逻辑的自然语句分割为仅包含单个and或or的简单自然语句，也即Simple Nature Language。语句切分必要性包含两点：简化解析难度、符合Drools官方规范。

2.2 Semantic Analysis

Semantic Analysis模块，采用NLP技术对自然语句进行解析。本文使用斯坦福大学提供的StanfordCoreNLP，通过Lemma化、依存分析、命名实体识别、part-of-speech信息和语法规则对简单自然语句进行解析。如，针对自然语句“When the air-conditioning is turned on, then close the window.”，StanfordCoreNLP解析得到的Lemma化结果、依存树结构分别如图3、图4所示。

图3 语句Lemma化结果Fig.3 Lemma result of statement

图4 依存树示例Fig.4 Example of dependency tree

通过Lemma化结果，如“turned on”归一为“turn on”，Lemma化的优势在于可去除时态、三单等语法形式引入的复杂性。

通过依存树的结构信息，可以分析各设备及其动作。自然语句中存在作为属性值的数字等实体时，可结合实体分析和依存树结构，判断出属性值的从属关系。

针对Drools规则在物联网环境下的特点，涉及的语法主要包括主系表、主谓宾、There be三种结构。

2.3 Template Analysis

Template Analysis通过解析模板对自然语句进行处理，以获取简单自然语句中的设备名、属性、参数值。本文系统中，解析模板包含两类：自动模板、人工模板。自动模板从小规模训练集中提取，提取步骤如下：

(1)通过StanfordCoreNLP获取简单自然语句PosTags信息，将PosTags词元形式作为模板，以提升其泛化能力；

(2)观察简单自然语句与对应的Drools规则，依据规则擦除PosTags中对应位置的信息，设备名、属性、参数值分别采用正则表达式标识；

(3)模板入库，人工模板由系统人员编写，与自动模板相比，人工模板更具针对性、可靠性。本系统中，人工模板的解析优先级高于自动模板。

Semantic Analysis、Template Analysis解析结果格式如下：

when部分：{ 设备名, 属性, 操作符, 参数值,逻辑符号 }

then部分：{ 设备名, 属性, 动作, 参数值 }

2.4 Drools Rule Generator

Drools Rule Generator由5部分构成：

Class Component：将解析的设备名转化为系统类名。类名解析首先判断是否具备类名同设备名相同，不同时则计算类名与设备名相似度，超过相似度阈值时则解析结束。否则，将通过类描述文件判定包含关系以及相似度。经实验表明，类描述文件是解析系统的有力补充模块；

Method Component：将动作转化类方法。通过StanfordCoreNLP获取动作字段词元，字段原形态、词元形态分别记为a1、a2。遍历方法注册表，若a1、a2与方法描述语句存在匹配关系，则将方法纳入候选集。遍历结束，通过类名、属性值对候选集进行二次过滤以获取最终结果；

Field Component：将属性转化为类属性。若属性字段为空，则以设备名作为属性。遍历属性描述文件，若与描述存在匹配关系或相似度超过阈值，则将属性纳入候选集。候选集中存在多个可能属性时，通过设备名、设备名对应的类名对结果二次过滤，以获取最终属性；

Value Component：为类成员属性赋值。在赋值操作中，主要将对参数值的类型以及成员属性类型进行一致性校验，校验成功后进行赋值；

Validate Component：验证生成的Drools规则语法是否正确。

基于模板和规则的方法，结合以上架构，可自动将用户输入的受限自然语句转化为Drools规则代码。

3 实验

3.1 数据集

人工编写7500条物联网环境下的标准Drools规则，每条规则由自然语句、Drools规则构成，数据集结构如下：

(1)2500条每个规则仅包含与逻辑的数据集；

(2)2500条每个规则仅包含或逻辑的数据集；

(3)2500条每个规则同时包含与或逻辑的数据集；

(4)7500条混合数据集，由以上3部分数据集构成。

3.2 评价指标

自然语句到Drools规则自动生成采用BLEU(Bilingual Evaluation Understudy)、ROUGE(Recall-Oriented Understudy for Gisting Evaluation)作为评价标准。BLEU、ROUGE指标分别计算1-gram至4-gram评分，以评估生成代码的准确度、流畅度。

BLEU评分范围为0～1，分数越接近1，翻译质量越高，计算公式如下：

其中，lc为机器译文长度，lr为最短参考翻译句子长度。BLEU需计算译文1-gram--N-gram精确率，通常N取4。Pn为N-gram精确率，Wn为N-gram权重，BP为惩罚因子。算法中，1-gram表示译文符合原文的程度，N-gram表示翻译结果流畅度。

ROUGE主要基于召回率，是常用的机器翻译和文章摘要评价指标，由Chin-Yew Lin提出，计算公式如下：

公式中，分母为参考译文中N-gram个数，分子为参考译文与机器译文共有N-gram个数。

3.3 实验结果

针对3.1部分提出的数据集，自然语句生成声明式Drools规则代码实验结果如表1所示。

表1 Drools规则代码生成实验结果Tab.1 Experimental results of Drools rule code generation

根据实验结果，7500条自然语句BLEU-1翻译得分为0.9925、ROUGE-1为0.9870，表明生成的Drools规则与标准规则匹配度很高。2-gram至4-gram表示翻译流畅度，其中4-gram含义最强。对于7500条自然语句翻译结果，BLEU-4为0.9642，ROUGE-4为0.8888，表明生成的Drools规则与标准规则在流畅度方面表现较好。生成的Drools规则与标准规则之间的差异归结为以下两点：

(1)属性值、方法值不同。自然语言解析阶段无法获得属性值或方法值，是造成差异的原因之一。如针对“when the light is turned on”条件，规则代码生成时可推理出该条件对应的类为Light、属性为State，但无法得知State值为0或1。方法值不同亦是如此。

(2)属性顺序不同。自然语言翻译领域，如汉英互译时，主谓宾等语法顺序的正确性决定了翻译结果的准确性。但是，Drools规则代码的条件属性顺序却有所不同。如“AirConditionor(state==1,isOn==true)”和“AirConditionor(isOn==true,state==1)”，二者条件属性顺序不同，但条件含义、语法、执行结果均一致。由此，BLEU、ROUGE在计算N-gram时，无法准确体现结构不同的代码在功能上是否一致。

4 结语

Drools作为成熟的商业引擎，同IFTTT一样可用于物联网环境。通过制定Drools规则，可依据环境状态自动控制物联网设备。本文提出的基于模板和规则的方法和系统架构，可依据受限自然语句自动生成声明式Drools规则代码。实验结果表明，基于模板和规则的方法在实际应用过程中具备可实施性、高精准性。但是，本文架构中的语义解析、模板解析模块还不够完善，有些自然语言形式化表达字段还无法解析，未来工作将提出更完善的形式化表达字段解析方法。