知识图谱在建筑工程事故案例库中的应用研究
2022-09-20王彦忠上海建科工程项目管理有限公司上海200032
王彦忠(上海建科工程项目管理有限公司, 上海 200032)
0 引 言
建筑工程事故之间一般都具有一定的共通性,通过对大量建筑工程事故进行研究和分析,可以更好地规避建筑施工风险。自20世纪60年代数字信息技术发展以来,许多建筑工程事故通过新闻得以报道且出具事故调查报告。通过这些新闻与事故调查报告总结和归纳处理事故的经验,可以对建筑施工进行一定的指导,从而规避一些风险[1]。通过数据库单独研究一个建筑工程事故可以获得很多信息,但是无法直观地了解多个建筑事故之间的共同点与潜在的规律,例如,要观测两个或多个建筑事故的异同点,使用表格或数据库对这些共同点进行检索可以达到目的,但是需要进行多次复杂的检索,而知识图谱能形成知识发展与结构关系的图形,能够显示知识单元或知识群之间网络、结构、互动、交叉、演化或衍生等诸多隐含的复杂关系[2],可以针对一个或多个事故进行展开,并且清晰直观地看到其异同点。因此,本文着眼于知识图谱技术在建筑工程事故案例库中的应用,首先利用信息挖掘技术构建案例数据库,然后构建了事故案例信息知识图谱,最后将研究成果应用到“建筑工程施工重大风险定量评估与预警平台”的软件功能中。
1 利用信息挖掘技术构建案例数据库
笔者查阅并收集近十年来的建筑工程事故信息的新闻文本与事故调查报告文本,通过人工清洗,共获得数千条具有字段的数据,如受伤情况、死亡情况、经济损失情况、地点信息、机构信息和时间信息等,也包括一些特定领域的特定知识,如建设单位、总承包单位、监理单位、结构类型、机械设备信息、建筑高度、建筑层数、温度、风力、降水、事故类型、季节和上下午等。采用人工手段对这些字段进行规范,如表1所示。
表1 字段规范选项表
通过人工知识组成的知识库,可以形成结构化的图表,如图1所示。
图1 经结构化处理的事故案例信息
表1、图1这样的图表能够较好地将文本数据的知识进行总结和提炼,并且可以通过对比多个事故,总结出一定的规律,例如:坍塌和起重伤害事故比较多,分别占总建筑工程事故数量的38%和40%;事故更容易在夏季频发;等等。由于人工构建的知识库的成本较高,笔者采用双向长短时记忆网络(Long Short-Term Memory,LSTM)和随机向量场(Conditional Random Field,CRF),得到一个命名实体识别模型[3-4],将知识库收集的数据以“字-标注类型”的形式进行标注。标注的规则,如表2所示。其中,“B”表示标注命名实体刚开始出现;“I”表示该命名实体前面已经出现过“B”标注,当前“字”还属于该命名实体范围内容;“O”表示其他标注。当命名实体为“LOC”时,标注开头为“B-LOC”,标注中字符为“I-LOC”。
表2 标注规则
本文以新闻中出现的一段话作为标注样例。人工标注的结果,如表3所示。
表3 标注样例
通过对1 200条数据进行标注,笔者制作了一个提取文本中机构和地点的安全事故信息提取模型,其训练效果,如表4所示。
由表4可知,当迭代次数为40时,模型训练效果较好,机构和地点识别的F1值分别达到了69.16%和69.12%,精准率和召回率也较高。因此,笔者选用了该模型用于提取机构和地点。通过该模型并结合正则提取方法,对事故信息文本中的受伤情况、死亡情况、经济损失情况、地点信息、机构信息和时间信息等进行提取。如对“广州市海珠区中交集团南方总部基地B区项目7·22塔吊坍塌较大事故调查报告”进行提取,其提取效果如表5所示。
表5 提取效果示例
2 构建建筑事故信息知识图谱
通过上述方法,笔者自动化构建了一个更简洁的知识库并进行了人工筛查。筛查的结果,如图2所示。
图2 事故案例库示例
将每一个字段设置为关系,将每一个字段对应的值都设置为实体,从而可以将所有数据转化为“实体-关系-实体”的三元组(如表6所示)。
表6 实体-关系-实体三元组样例
这样的三元组代表了知识。例如,表6中第一条数据,非常容易让人直观理解为“钦州某建筑工地的项目地点是广西省”,知识图谱压缩了这段文本,将其转化成了简练的三元组,而这些三元组通过相同的实体进行关联,就可以形成一个多节点、多边的知识图谱(如图3所示)。
图3 知识图谱可视化
从图3可以清晰地看出,四个项目的事故类型都是“起重伤害”;“宝安2”项目和“塔岭天际名城二期”项目都是在华南地区,并且都是晚上发生的,事故等级都是“一般”;“玉屏县玉屏舞阳欣城A区8号楼工程”项目和“七星关区环境整治‘19456’工程天河广场”项目都发生在西南的贵州省,且事故等级都较大。
3 建筑事故信息知识图谱的应用
笔者将上述研究成果应用到国家“十三五”科技支撑计划“建筑工程施工风险监控技术研究”中,开发了“建筑工程施工重大风险定量评估与预警平台”。在该课题中课题组收集了近期发生的建筑工程事故超过1 000例,并构建了事故案例库。如何实现事故案例库的自动收集,如何充分利用挖掘事故案例库的价值是课题组需重点解决的问题。笔者利用数据挖掘技术,从安全管理网采集事故信息,并采用同样的逻辑构建了基于部分信息的知识图谱。用户可根据需要级联搜索查找关注的事故的相关信息。
4 结 语
知识图谱通过形象和直观的方式,将案例数据库中的案例以多个角度呈现在用户面前,为用户提供搜索、查询等服务。通过展示不同案例之间的属性及属性连接的其他案例的关系,用户可以清晰地看到不同案例之间的关系和联系。知识图谱的构建,可以缩短用户案例搜索和知识查询所需要的时间,也有利于对案例数据库进行深入研究和拓展,充分挖掘案例数据库中的隐性知识和潜在价值。