铁路运输安全非结构化数据分析与技术架构研究
2022-02-18李新琴史天运代明睿胡宸瀚
李新琴,史天运,代明睿,胡宸瀚
(1.中国铁道科学研究院 研究生部,北京 100081;2.中国铁道科学研究院集团有限公司 科信部,北京 100081;3.中国铁道科学研究院集团有限公司 电子计算技术研究所,北京 100081)
为了保障运输安全,铁路部门从人防、物防、技防3 个方面建设安全管理规章制度、安全管理系统及安全运营监控系统,构建了覆盖事故故障预防、运输安全保障、事故故障救援的铁路运输安全保障体系[1-3]。随着铁路运营里程的不断扩大,产生和存储了大量的文本、视频、图像、声音等多种类型非结构化数据,非结构化数据已经成为大数据的主体。这些非结构化数据承载了中国铁路安全运营的重要信息,而由于管理和分析技术的壁垒,这些数据尚未得到真正的价值分析和应用。在大数据和人工智能背景下,研究铁路运输安全非结构化数据分析价值及技术架构,对铁路安全运营具有重要的意义。
铁路运输安全非结构化数据价值丰富,许多学者对其进行了研究。王广[4]就设备维修文本数据采用贝叶斯网络预测模型和AdaBoost 预测模型实现天气相关的铁路道岔故障预测;赵阳等[5]以故障文本信息为依据,针对高速铁路信号车载设备,提出贝叶斯结构学习算法;杨连报等[6]针对信号文本故障数据,采用SMOTE 方法解决数据的不平衡问题,并采用多种分类器对数据进行分类。通过借鉴现有铁路运输安全非结构数据的分析方法,研究铁路运输安全体系下各系统产生的非结构化数据类型、特点及分析价值,对非结构化数据进行价值分析,并构建非结构化大数据技术架构。
1 铁路运输安全非结构化数据体系架构
铁路运输安全体系是一个在时间和空间上分布很广且开放的动态体系结构。基于非结构化数据的运输安全体系架构将铁路运输安全体系与非结构化数据来源相结合,可分为体系分类层、运输安全管理与监控层及非结构化数据层。其中,体系分类层包含铁路运输安全基本体系,主要是从事故预防、安全保障及事故救援方面对铁路运输安全的管理和监控系统进行分类;运输安全管理与监控层为对应体系分类下铁路建设的安全管理与监控系统,随着系统的运维,产生了大量的非结构化数据;非结构化数据层包括来源于各管理与监控系统中包含重要铁路安全价值的信息,主要包括各类文档、图片、文本、视频音频、日志文件及各类报表。铁路运输安全非结构化数据体系架构如图1 所示。
图1 铁路运输安全非结构化数据体系架构Fig.1 System architecture of unstructured data for railway transportation safety
不同类型的非结构化数据构成如下。
(1)各类文档。为加强铁路运输安全预防及监管措施,铁路部门制定了各类规章制度、作业标准、培训管理办法,这些包含铁路运输安全知识的数据均以word,PDF 等文档形式存储。另外,铁路事故故障分析报告也以文档的形式存储。
(2)文本数据。铁路安全管理信息系统的许多关键信息需要人工输入完成,从而产生许多长短不固定的铁路运输安全人员工作内容及现场设备状态的文本数据。动车组管理信息系统中的高速铁路动车组设备故障数据,以大段文字描述了故障发生的过程和原因分析,是典型的文本数据。
(3)图片。动车组运行故障图像检测系统、铁路货车运行故障动态图像检测系统及接触网悬挂状态检测检查装置的高清成像检测系统,通过图像采集装置和图像检测技术,实现了高速铁路运行状态的监测检测,这些监控系统在铁路运营过程中产生了大量的图片数据。
(4)视频、音频。机车调车监控管理系统、高速铁路视频监控系统及辅助调度作业的视频监控系统,均以视频方式记录现场人员与设备安全作业信息;调度人员的调度口令、司机及现场作业人员的回复与请求口令以音频形式存储。
(5)日志文件。铁路部门围绕铁路运输安全体系构建了多类监管系统,为方便系统的运维,各系统均记录了操作与运行日志,这些系统产生的日志文件与日俱增,并且均以非结构化数据存储;由于系统的开发技术不同,产生的日志文件格式各不相同。
2 铁路运输安全非结构化数据特点
铁路运输安全非结构化数据呈现出“数据结构复杂+价值信息大+分析困难”的状态,并且具有大数据的5V 特征,即规模性(Volume)、快速性(Velocity)、多样性(Variety)、准确性(Veracity)和价值(Value)。
(1)规模性。大数据一般是指数据量达到PB级的数据。铁路围绕车务、机务、工务、电务、车辆等各专业已建立数十个安全监测监控系统,最为典型的高速铁路综合视频监控数据每年约有100 PB以上的视频数据,铁路货车运行故障动态图像检测系统产生的图像数据更是巨大,铁路日常人员监督、考核,以及设备维护管理系统均产生了大量历史数据,非结构化数据已具备大数据的规模。
(2)快速性。不同于传统的数据挖掘,大数据需要快速、持续地处理高速数据流。高速铁路调度集中管理系统、供电采集与监视监控系统、电务微机监测系统等均需要实时处理各种检测数据,并做出快速的判断与反馈。为保障运营安全,所产生的日志文件需要快速分析。
(3)多样性。非结构化数据来源不同,这些数据来自于各个安全管理与监控系统,数据的存储格式和数据类型也各不相同。①存储格式不同,例如,文本文件包括word,excel 和txt 等数据存储格式,轨道检测车数据采用geo 和iic 格式进行存储。②数据类型不同,包括文本数据、视频、图像多种类型的数据。这些非结构化数据具有大数据多样性特征。
(4)准确性与价值。铁路运输安全非结构化数据的价值在于应用非结构化数据分析方法,挖掘非结构化数据中的安全信息价值,为运输安全管理、行车安全保障提供重要依据。安全非结构化数据记载了不规则的铁路运输安全信息,图片、音频、日志非结构化数据记录了现场人员和设备作业的真实状态,具有数据准确性特征。文本数据一般由人员以文字描述方式记载对安全事物的状态和认识信息,该类数据包含了人员对安全问题的经验信息,一般记录数据越真实,数据价值越大。不同于结构化数据,安全非结构化数据随着时间的推移,其数据仍然存在挖掘价值。
3 铁路运输安全非结构化数据分析
影响铁路运输安全的因素错综复杂,涉及面广,可系统性划分为5 类:人员、设备、环境、管理及综合因素。安全非结构化数据承载了关于这5 类影响运输安全因素的重要信息,分析非结构化数据,及时发现不安全因素,并深入挖掘安全因素之间的关联信息,以保障铁路运输与服务安全。
(1)基于安全非结构化数据的人员因素影响分析。为管理和监督人员工作质量,铁路有关单位建设了安全质量考核、安全管理监督、每日重点安全信息追踪分析、生产安全过程控制等系统,对人员的安全工作进行严格把控,然而这些系统的许多关键信息需要人员输入完成,对安全问题的定性也由人员根据工作经验主观完成,最终产生的数据具有随意性。与运输安全规章制度、安全问题标准库文本数据深度结合,分析该类非结构化数据,挖掘人员工作质量与态度,对加强和规范安全管理,督促人员遵循安全规范具有实际意义。
(2)基于安全非结构化数据的设备因素影响分析。铁路运输安全设备分为铁路基础设备和围绕基础设备构建的监视与监控系统。铁路基础设备包括信号机、道岔等设备。监控系统包括信号微机监测系统、供电数据采集与监控系统等。①基础设备影响。基础设备的文本数据来源于事故或故障发生前人员检查问题时对隐患设备的状态描述,事故或故障发生时对故障设备的描述,以及之后对设备的处理和维修记录,基于该类与设备有关的文本数据,挖掘铁路安全隐患、事故、故障之间的关联关系对铁路运输安全故障预警、故障原因分析等具有指导意义,同时设备状态与事故文本数据也是构造故障树的重要数据来源。②基础设备监视与监控系统影响分析。基础设备监视与监控系统是铁路运输安全的重要保证,基于监控图像智能识别技术,分析监视与监控系统实时产生的图像、视频数据,发现潜在的风险与问题,是保障铁路运输安全的有效手段[7]。同时基于文本分析技术分析基础设备监视与监控系统业务逻辑,构建业务逻辑关系图谱[8-10],便于人员对整个系统的业务逻辑认知。
(3)基于安全非结构化数据的环境因素影响分析。铁路安全文本数据中存在大量描述由于内部环境如作业场所的噪声、振动,以及外部环境如天气、治安或现场秩序导致的运输环境不安全文本数据。这些数据真实记录了环境对铁路运输的影响,挖掘环境因素与铁路运输安全的关联关系,对铁路工作人员分析安全问题,以及在不同的环境下做出不同的安全控制策略都具有指导意义。
(4)基于安全非结构化数据的管理因素影响分析。基于文本分析和文字识别OCR 技术,分析以文本形式存储的铁路相关安全管理规章制度及工作人员作业产生的文本数据,发现安全管理的漏洞,以及人员工作方式潜在的风险,及时完善安全规章制度,调整管理办法,也是非结构化数据在铁路运输安全中的价值体现。
(5)基于安全非结构化数据的综合因素影响分析。铁路故障或事故的发生往往是由多种因素引起的。铁路事故故障分析报告记录了事故与故障发生的详细过程及原因分析,是铁路安全数据中唯一以事故故障致因链存储的、包含多种安全影响因素的数据,具有重要的挖掘价值。分析记录铁路事故故障原因的文本数据,挖掘事故故障的因果关系,是预防和避免事故故障发生的有效手段。
4 非结构化大数据技术架构
铁路运输安全非结构化数据具有典型的大数据特性,基于大数据技术的非结构化数据分析架构图如图2 所示,主要包括数据源层、数据采集层、数据存储层、数据服务层、数据分析层及数据应用层。
图2 基于大数据技术的非结构化数据分析架构图Fig.2 Unstructured data analysis architecture based on big data technology
(1)数据源层。铁路运输安全非结构化数据来源于铁路运输安全体系下各类规章制度、管理系统及监控系统。例如,铁路工务、电务、供电等专业的监测检测系统产生的视频数据、图像数据及音频数据,运维及安全管理系统产生的大量人员管理规章制度、人员履职行为、风险隐患、病害、事故调查报告等文本数据。
(2)数据采集层。根据数据源层系统产生数据的特点及分析实时性需求,采用大数据Streamsets,Flume 组件,或者通过FTP,SFTP,ETL,JDBC/ODBC 等方法对数据进行采集。通过数据采集工具可将非结构化数据从生产系统导入到大数据平台,便于数据分析人员对安全非结构化数据进行分析。
(3)数据存储层。数据存储层存储经过数据采集层抽取、转换、清洗的数据,根据非结构化数据的特殊性,设计多种分布式存储方案。例如,CEPH 在小文件分布式存储中具有高效检索与查询的优势,适用于铁路事故分析报告的存储与检索;Neo4j 以图谱的形式存储数据及数据之间的关系,是存储铁路运输安全知识的庞大非结构化知识库。
(4)数据服务层。数据服务层提供非结构化数据的特殊服务,主要包括针对基于监督学习的非结构化数据分析模型的训练与测试数据的智能标注服务,以及数据目录、数据同步与共享服务。数据标注服务内置智能分析模型,辅助人员对图像、文本、音频样本数据进行快速标注,形成样本集,为非结构化数据分析提供样本基础。
(5)数据分析层。数据分析层是分析非结构化数据的核心,应用图像处理、文本分析、OCR 文字识别技术、语音识别技术分别处理图像、文本数据、PDF 等文字识别及语音数据,各类处理技术中包括基于传统学习与深度学习的分析算法。
(6)数据应用层。数据应用层是非结构化数据的最终价值体现。应用非结构化大数据处理技术,实现铁路运输安全非结构化数据的管理、查询、统计及结构化转换应用,便于后续对数据的深入挖掘。同时,人工智能应用也是研究非结构化数据的目的。例如,基于铁路运输安全智能问答及行车故障图像自动识别,均源于对铁路运输安全文本非结构化数据及图像非结构化数据的分析。
5 结束语
通过系统地梳理铁路运输安全体系的非结构化数据类型、特点,探索铁路运输安全非结构化数据挖掘价值,为铁路安全数据分析人员提供数据分析方向;通过构建铁路非结构化数据分析架构,实现铁路运输安全非结构化数据的统一存储、管理和分析,为铁路运输安全非结构化数据分析提供技术支撑。基于大数据和人工智能分析技术对安全数据进行分析,是提高铁路运输安全管理及智能化水平的发展趋势,对铁路运输安全非结构化数据进行深入数据分析,从而使其发挥数据的重要价值,将是下一步的研究方向。