APP下载

基于多源异构数据的市政管理知识库构建

2016-11-23佟明川陈明锐钟东来张淑征

关键词:知识库异构实例

佟明川, 陈明锐, 许 斌, 钟东来, 张淑征

(1.海南大学 信息科学技术学院,海南 海口 570228;2.清华大学 信息科学技术学院,北京 100084)



基于多源异构数据的市政管理知识库构建

佟明川1,2, 陈明锐1, 许 斌2, 钟东来2, 张淑征1,2

(1.海南大学 信息科学技术学院,海南 海口 570228;2.清华大学 信息科学技术学院,北京 100084)

为了满足市政管理领域对数据权威性和体系完备性的高要求,实现市政管理领域知识库的自动化构建,笔者提出了一种基于多源异构数据的市政管理知识库构建模型.采用自顶向下的构建模式,完成对结构化关系型数据、半结构化文本数据和互联网数据在内的多源异构数据自动化知识抽取,最后设计了一个轻量级示例系统,并对该方法的执行效果进行了评估.实验结果表明,本方法在市政管理领域的知识库构建上优势明显,能够实现对多种市政管理资源的自动化知识抽取,所生成的概念体系完整清晰,知识描述恰当准确.

智慧城市; 市政管理; 多源异构数据; 自动化知识抽取; 领域知识库构建

随着城市信息化进程的日益加快,人们对城市服务能力的要求也越来越高.尤其在市政管理方面,社会需要政府尽快从管理型向服务型转变,为公众提供更为人性化的市政服务,如图 1城市管理三维分析模型[1]所示.随着城市规模的日益扩张,城市内部各要素间的相互作用也不断增强,这无疑进一步加剧了城市管理的难度.于是学者们提出了智慧城市的发展思路,通过先进的信息技术手段来缓解城市发展所带来的压力[2],促进城市和谐、可持续发展.

与此同时,知识工程作为人工智能领域的重要学科,研究者们开展了许多相关工作[3-4],其中不乏基于领域本体知识库的城市智慧系统构建案例[5].知识库构建方法大致可分为3类:直接编辑知识、基于大众智慧的众包式构建以及自动或半自动的知识抽取.其中,直接编辑知识方式由于受时间和经济的成本制约,并不适合大规模知识库的构建;基于大众智慧的众包模式则采用互联网众包机制[6],但过于依赖激励机制且内容的准确性难以控制,使得知识库在运行稳定性和体系完备性上得不到保证,市政管理领域涉及到大量的专业法律法规和执法规范,对数据的准确性、权威性和时效性都有着极高要求.因此,上述2种方式不适用于目前市政管理领域的知识库构建.笔者以自动或半自动知识抽取为基础,结合市政管理领域的数据特点,提出了基于多源异构数据的市政管理知识库构建方法,实现了对异构数据源的自动化知识抽取,完成了对市政管理资源的多元多层次语义融合.

1 相关工作

1.1 研究背景及现状 自20世纪末以来电子政务及其相关研究[7]便成为研究的热点.中国作为当今城市现代化建设最为快速的国家之一,对城市的信息化进程高度重视[8].如今,所有的市政管理部门都拥有自己的电子政务系统(以下简称部门系统),但由于每个部门的工作内容和业务流程不尽相同,使得部门系统所使用的系统结构及数据流格式存在明显差异,这导致部门系统的“孤岛”问题凸显.

以往对于此类问题,业界通常采用通用数据库接口技术[9]解决,但此技术主要应用于关系型数据库的数据通信,在知识的存储和表示上具有明显的局限性.首先传统关系型数据库对知识的表达和处理能力差,不支持专门的推理机制和带控制的搜索;其次市政管理体系的内部逻辑复杂,关系型数据库可能会导致关键语义的丢失和推理性能的下降.因此,充分考虑了本体知识库在语义表达和知识推理方面的优势,提出通过构建市政管理知识库解决上述问题[10].

此外,在数据融合方面也已取得了一定的成果[11],包括知识搜集[12]和数据挖掘[13]相关工作.同时还开展了大量关于知识工程技术的智慧城市研究工作[14-15],目前城市本体的相关研究主要集中在轨道交通[16]、基础医疗[17]等领域,但是市政管理作为城市建设的重要环节却鲜有针对该领域的知识库构建及研究工作.

1.2 研究内容 针对市政管理领域的特点,在现有的研究基础上提出了基于多源异构数据的知识库构建方法,该方法采用自顶向下的构建模式,强调了知识体系的系统化和有序化.整个构建流程可分为知识库构建和系统接口设计2个部分,其中知识库构建部分包含领域概念化、知识结构化和语义链接3个阶段,方法的构建流程如图 2所示.

2 多源异构数据

市政管理领域属于复杂巨系统,为了确保知识体系的完整性和领域知识的准确性,用于知识库构建的数据源应具备多元化的特点,需要充分考虑到结构化、半结构化及无结构化等多源异构数据.

2.1 结构化部门系统元数据 系统元数据是指用来描述系统数据的数据.部门系统元数据是领域专家参与制定的部门系统资源抽象化描述,通常为二维表结构.表1中元数据每个元素都有4个字段对其描述,即业务标识、元素名称、类型和类别.其中,业务标识描述了知识体系的层次结构;元素名称为元素的说明标签;类型为元素基于概念层次的分类;类别则描述了元素的物理特征.

表1 部门系统元数据示例

2.2 半结构化法律法规文本 法律法规是行政执法工作的判定依据和执行准则,原则上每项市政管理业务都应有一条或若干条法律法规条款与之对应,因此市政管理知识库中必须有覆盖该领域的所有相关法律法规知识.法律法规通常为无结构或半结构化的纯文本数据,具有统一的格式规范.图 3为与表 1处罚措施相对应的法律法规条款,展示了法律法规数据的文本内容和格式特点.

4、以欺骗手段取得资质证书承揽城乡编制工作

处罚种类:罚款

法律依据:

《城乡规划法》第六十二条第三款:“以欺骗手段取得资质证书承揽城乡编制工作的,由原发证机关吊销资质证书,依照本条第一款规定处以罚款:造成损失的,依法承担赔偿责任.”

图3 法律文本格式规范示例

使用系统元数据的优势在于其最大程度地保留了市政管理领域的业务信息和逻辑关系,非常适合组织市政管理领域的知识体系.

2.3 海量互联网数据 在当今的大数据时代,互联网提供了海量的数据资源,虽然这些数据在知识密度和数据准确性上远不及上述2种数据资源,但其获取成本小,并且可以保证知识体系的完备性,提升知识库的实用性.因此,选取互联网百科数据作为知识库构建的外围补充层,将互联网数据有选择地填充到知识库中.

3 基于多源异构数据的知识库构建

本构建方法具有对多源异构数据的知识转化和处理能力,工作重点在于实现市政管理领域中,多源异构数据的自动化知识抽取和语义恢复.整个过程可分为领域概念化、知识结构化及语义链接3个阶段.

3.1 领域概念化 领域概念化主要指市政管理知识体系的概念模型构建.由于市政管理领域对知识体系的准确性和完整性要求较高,提出以部门系统元数据为基础的概念体系构建方法,该方法强调了知识概念体系的系统化和有序化.将表1中的系统元数据“类型”属性作为概念列表自动化抽取,所得概念体系,如图 4所示.

3.2 知识结构化 本阶段的主要目标是完成多源异构数据的知识抽取,实现对市政管理知识体系的结构化构建.为了保证知识抽取的效率和质量,采取自动化的抽取策略,所涉及的异构数据源包括部门系统元数据和纯文本法律法规2类.

3.2.1 基于部门系统元数据的知识抽取 为了实现对部门系统元数据中知识的自动化抽取,制定了如下转换规则

规则1 将具有相同“元素名称”的元素作为同一实例处理,一个实例可能会有多个“业务标识”与之对应;

规则2 元素的“类型”字段规定了该实例的所属概念,可以直接与概念体系模型相对应;

规则3 元素的“类别”字段将作为该实例的对象类型属性(Object Property),用来描述上下层级实例间的语义关系.

按照上述转换规则对表 1中元数据做自动化知识抽取,可得到如下OWL结果.

“处罚以欺骗手段取得资质证书承揽城乡规划编制工作”

“C.1.1.1.10.23”

该OWL片段描述了系统元数据中“处罚以欺骗手段取得资质证书承揽城乡规划编制工作”实例及该实例与其他实例间的属性关联关系.

转换规则不但能快速完成系统元数据的自动化知识抽取,还可以较好地保留实体间的语义信息,为后续知识推理工作的开展提供帮助.图 5为表 1中系统元数据经过知识抽取后得到的结果.

3.2.2 基于纯文本法律法规的知识抽取 基本思想是设计自动或半自动的算法,从现有的文档中提取知识.由于法律法规具有明确的格式规范,可以通过划分基本单元的方式对其中的知识逐一抽取.利用法律单元所具有的统一格式规范,通过正则匹配等方式实现法律文本的自动化知识抽取.以图 3中的法律文本为例,具体步骤如下

步骤1 法律基本单元以阿拉伯数字为划分,每个基本单元对应一个法律实例;

步骤2 当匹配到以阿拉伯数字为开头的字符串时,则为该实例创建数据类型属性(Data Property)“处罚行为”,匹配所得字符串即为属性值;

步骤3 当匹配字符串为“处罚种类”时,则为该实例创建数据类型属性“处罚种类”,其后字符串为属性值;

步骤4 当匹配字符串为“法律依据”时,其后文字为该违法行为的法律依据.需要对这部分作字符串的2次匹配,即引号前的部分将作为实例标签(Label)处理;引号后的部分则作为该法律的具体描述,存储在注释(Comment)中;

步骤5 当再次匹配到以阿拉伯数字为开头的字符串时,说明上一基本单元的知识抽取工作已经基本完成,将跳转到步骤1继续处理下一单元,直至所有导入数据全部处理完毕.

按照上述步骤对3所示的法律基本单元做自动化知识抽取,可得到OWL片段如下

“《城市道路管理条例》第四十二条第一款”

“以欺骗手段取得资质证书承揽城乡规划编制工作的,由原发证机关吊销资质证书,依照本条第一款规定处以罚款;造成损失的,依法承担赔偿责任.”

以欺骗手段取得资质证书承揽城乡规划编制工作的

罚款

3.3 语义链接 讨论如何从中找出实体间的内在联系,实现实体的语义链接.在市政管理知识库中,语义链接主要体现在2个层面:1)基于领域知识体系的语义恢复;2)基于互联网资源的知识扩充.

3.3.1 基于领域知识体系的语义恢复 在市政管理的知识体系中,语义关系主要表现为2种形式:1)市政管理业务间的逻辑关系;2)市政管理业务与法律条款间的关联关系.对于第一种语义关系的恢复,已经通过上节的实例属性抽取实现,将主要介绍第二种情况的自动化语义链接方法,主要通过计算活动实例与法律实例的关联程度实现.

在市政管理本体知识库中,实例间通过构建属性连接实现语义关联.通过分析法律实例与活动实例的特征,计算二者的相似程度来判断是否为其建立链接关系,当相似度超过阈值时,则创建“法律依据”属性将二者关联起来,此处阈值预实验结果设置为0.8.该过程的伪代码如下.

While 法律实例队列Q非空

初始化相似度S=0;

初始化活动实例队列P;

法律实例V=队列Q的队头元素出队;

While 活动实例队列P非空

活动实例W=队列P的队头元素出队;

S=计算实例V与实例W的相似度;

If S>阈值

Then 属性关联实例V与实例W;

Else 不关联实例V与实例W;

End If

End While

End While

为确保实例链接的准确性,采用编辑距离算法[18]和余弦相似度算法相结合的方式来确定实例间的相似度.其中,编辑距离算法通过Apache Common的Levenshtein函数获得,余弦相似度计算公式

( 1 )

其中,x为第一个句子的向量,y为第二个句子的向量,右式的分子为向量x与向量y的笛卡儿积,即相同字出现频度的乘积的和;分母为x向量的模和y向量的模的乘积,向量的模为各向量中元素平方和的二次方跟;n为向量的长度,i是一个变量指示器.选取二者的F1-Measure值作为相似度计算结果,公式如下

( 2 )

其中,x为第一个句子的向量,y为第二个句子的向量,cos sim(x,y)和levin(x,y)分别代表余弦相似度算法和编辑距离算法的相似度计算值,表 2为部分实验数据的测试结果.

表2 实体关联度计算

表 2中,第三组实验数据即满足上述实体关联条件,于是将自动添加三元组 将2个实例关联起来.

语义链接工作进一步完善了市政管理知识体系,准确地发映了业务实例与法律实例间的语义联系.“处罚未取得建设工程规划许可证或者未按照建设工程规划许可证的规定进行建设”实例通过上述语义恢复工作与多条法律实例建立属性链接的OWL结果.

“处罚未取得建设工程规划许可证或者未按照建设工程规划许可证的规定进行建设”

“C.1.1.1.10.25”

3.3.2 基于互联网资源的知识扩充 虽然部门系统元数据和纯文本法律法规为市政管理知识库提供了可靠有效的数据来源,但数据源在领域信息的描述上仍较为简略,且时常涉及专有名词,不利于公众对知识体系的理解.于是结合互联网数据对知识库做了进一步完善,主要通过Xlore(http://www.xlore.org/)提供的实例查找API,可以把城市管理知识库的实例定位到相应在Xlore的实例.Xlore是清华大学知识工程实验室(KEG)自主研发的基于百度百科、互动百科、中文维基和英文维基等4个在线百科资源的交叉语义知识库,通过调用其API为知识库中的大部分概念和实例找到相应的概要描述信息.

4 市政管理知识库

为了论证本文所提出的市政管理知识库构建方法在的实际操作过程中的性能和效果,使用上述方法了构建了一个轻量级的市政管理知识库,并对该知识库的各项指标作了统计分析.

本知识库示例是基于新疆维吾尔自治区克拉玛依市的市政管理资源构建,包括克拉玛依市部门系统元数据共计7 985项,相关法律法规共245件1 945项.采取本文知识库构建方法对数据源进行处理,共得到概念14个,实例4 283项以及属性47个,涵盖了与市政管理相关的组织机构、业务活动及法律法规等方面.表3为知识库中各概念及其实例数量的分布情况.

表3 实例分布情况统计 个

本市政管理知识库共生成三元组25 891条,共包含16个概念,其顶层概念体系如图 6所示,其中“人员”和“领域”2个上层概念是领域专家在概念抽取的结果上抽象出来的,是对体系层次结构的优化与完善.该知识图谱中的属性链接反映了不同实体间的语义关系.图 7为“操作者”概念及其实例的属性链接情况,清晰地刻画了“操作者”概念及其实例与其他实体间的关系,图中实线表示概念与实例间的从属关系,虚线表示实例间的属性链接关系.

鉴于目前尚无相关科研成果可供对比参照,故采用人工校验的方式对实验结果的正确性进行验证.将实验结果通过protégé生成可视化的知识图谱,由领域专家对实验结果的正确性进行验证,验证结果表明本文方法所生成的概念体系完备,逻辑关系正确.相对于直接编辑知识和众包式构建等传统知识库构建方法,本文方法更符合市政管理的领域特点,在知识库的完备性和准确性上优势明显.

5 结束语

本文论证了市政管理领域的特点,采取自顶向下的自动化知识抽取方式,有效地克服了直接编辑知识、基于众包模式等构建方法在资源成本和信息准确性上的不足,并提出了基于多源异构数据的市政管理知识库构建方法,实现了市政管理资源从领域概念化到知识结构化,再到知识服务化的转化过程;最后鉴于本体知识具有良好的可移植性,所生成的市政管理知识库可作为中间件为其他城市智慧应用提供语义支撑.下一步工作将从以下几个方面展开:1)将更多地关注于知识库的验证,特别是知识库局部更新的数据一致性问题;2)将在后续的工作中设计开发基于该系统的城市智能应用,进一步挖掘市政管理知识库的应用价值.

[1] 宋刚. 复杂性科学视野下的城市管理三维结构[J]. 城市发展研究,2007,14(6):72-76.

[2] Ricciardi F, Za S. Smart City Research as an Interdisciplinary Crossroads: A Challenge for Management and Organization Studies. From Information to Smart Society[M]. Switzerland: Springer International Publishing,2015:163-171.

[3] Davies W K D. Developing Knowledge Cities[M]. Netherlands: Springer,2015:381-424.

[4] 马斌, 王金虹, 闫娟娟,等. 基于本体的智能语义检索模型设计与研究[J]. 情报科学,2015,33(2):46-49.

[5] Chung T L,Xu B,Zhang P,et al.Constructing City Ontology from Expert for Smart City Management[M]∥Jing Yijia.The Road to Collaborative Gollaboration in China.Switzerland:Springer lnternational Publishing,2014:187-194.

[6] Getman A P, Karasiuk V V. A crowdsourcing approach to building a legal ontology from text[J]. Artificial Intelligence & Law,2014,22(3):313-335.

[7] Anthes G. Estonia: a model for e-government[J]. Communications of the Acm,2015,58(6):18-20.

[8] Schlaeger J. Collaboration in China’s E-Government:A Cultural-Theory Analysis[M]∥Jing Yijia .The Road to Collaborative Governance in China.New York:Palgrave Macmillan US,2015:123-145.

[9] 黎泽龙, 张阳, 薛原,等. 基于 XML 的数据库接口自动生成技术设计与应用[J]. 计算机与数字工程,2015,43(8):1 547-1 551.

[10] Bellini P, Nesi P, Rauch N, et al. Ontology bulding vs data harvesting and cleaning for smart-city services[J]. Journal of Visual Languages & Computing,2014,25:827-839.

[11] Cataldo A, Pinto V D, Rinaldi A M. A Methodological approach to integrate ontology and configurational analysis: proceedings of the 4th International Conference on Complex Systems and Applications Contents, Le Havre France, June 23-26, 2014 [C]. Switzerland: Springer,2014.

[12] 管君, 谢玮, 张仰森. 基于多知识源的语义搭配知识库的构建及应用[J]. 计算机工程与设计,2013,34(6):2 136-2 140.

[13] Thakor P, Sasi S. Ontology-based sentiment analysis process for social media content[J]. Procedia Computer Science,2015,53:199-207.

[14] 杨建萍, 年梅. 基于维基百科网络技术的概念语义网络构建[J]. 计算机与现代化,2016(1):1-5.

[15] Bellini P, Nesi P, Rauch N. Knowledge base construction process for smart-city services: proceedings of the 19th International Conference on Engineering of Complex Computer Systems on IEEE, Tianjin, August 4-7, 2014 [C]. [S.l.]: IEEE,2014.

[16] Bermejo A J, Villadangos J, Astrain J J. Ontology based road traffic management, intelligent distributed computing[J]. Studies in Computational Intelligence, 2013, 446(16):103-108.

[17] Song T M, Park H A, Jin D L. Development of health information search engine based on metadata and ontology.[J]. Healthcare Informatics Research,2014,20(2):88-98.

[18] 王卫红, 李君. 基于局部变化性的改进编辑距离算法[J]. 计算机工程,2015,41(7):294-298.

Constructing Municipal Management Knowledgebase Based on Heterogeneous Data

Tong Mingchuan1,2, Chen Mingrui1, Xu Bin2, Chung Tonglee2, Zhang Shuzheng1,2

(1. College of Information Science and Technology, Hainan University, Haikou 570228, China;2. College of Information Science and Technology, Tsinghua University, Beijing 100084, China)

In our report, to meet the requirement of legitimacy and completeness in the field of municipal management and realize the automation of municipal management knowledgebase constructing, a top down municipal management knowledgebase model based on heterogeneous data was constructed. The model can extract structured data, semi-structured data and unstructured data, and a light weight knowledgebase system for evaluation and presentation purpose was designed. The results showed that the model of domain-knowledgebase construction in the field of municipal management has obvious advantages, which can realize automatic knowledge extraction from a variety of municipal administration resources, and generate a complete concept system and exact knowledge information.

smart city; municipal management; heterogeneous data; domain knowledgebase construction; automatic knowledge extraction

2016-02-28

国家863计划(2013AA01A607); 海南省社会发展科技专项(2015SF32)

佟明川(1990-),男,辽宁抚顺人,海南大学2013级硕士研究生,研究领域:知识工程,E-mail: tmc0916@163.com

陈明锐(1960-),男,海南海口人,教授,博导,研究领域:软件工程,E-mail: 1607885098@qq.com

1004-1729(2016)03-0228-09

TP 391

A

10.15886/j.cnki.hdxbzkb.2016.0035

猜你喜欢

知识库异构实例
试论同课异构之“同”与“异”
基于TRIZ与知识库的创新模型构建及在注塑机设计中的应用
吴健:多元异构的数字敦煌
异构醇醚在超浓缩洗衣液中的应用探索
高速公路信息系统维护知识库的建立和应用
LTE异构网技术与组网研究
基于Drupal发布学者知识库关联数据的研究
完形填空Ⅱ
完形填空Ⅰ
位置与方向测试题