基于大数据的知识挖掘技术在航天领域应用展望
2015-03-16中国运载火箭技术研究院研究发展中心毕经元等
◎中国运载火箭技术研究院研究发展中心 毕经元等
基于大数据的知识挖掘技术在航天领域应用展望
◎中国运载火箭技术研究院研究发展中心 毕经元等*
近年来,中国运载火箭技术研究院开展了知识梳理、知识采集、知识分类等多项工作,形成了专业分类、型号产品等维度的知识库,不断积累、完善的知识库势必在航天产品研制过程中发挥重要作用。知识库的利用程度依赖于知识挖掘技术,尤其在航天产品研制过程中的知识挖掘,涉及多专业、多部门、多领域。知识库内容庞大、维度多、交叉多,无法依赖人工手段进行系统化的知识挖掘工作,需要充分借助以人工智能、大数据以及语义网络为基础的知识挖掘技术,实现对知识库的充分利用。
一、基于大数据的知识挖掘技术
1.知识挖掘含义
知识挖掘是知识管理工作的关键环节,不仅可以提高知识管理效率,更能够促进知识的不断创新。知识挖掘通常包含2种方式:一种是通过分析大量知识之间的隐含关系,发现显性知识之间的关联,注重采用信息技术对大量结构化与非结构化知识内容进行自动化分析;另一种侧重于通过引导与交流挖掘隐性知识,注重发现难以用文字、语言以及图像等形式描述和交流的个人经验、情感、组织文化等。
大数据技术影响着从商业、科技到医疗、政府、经济、教育、人文以及社会的各个领域。若将数据挖掘提取“粗糙知识”称为“一次挖掘”过程,那么可将“粗糙知识”与主观知识相结合而产生的“智能知识”称作“二次挖掘”过程,类似事物“量”到“质”的飞跃。结构化的“粗糙知识”可以被主观知识加工处理并转化,从而生成半结构化和非结构化的“智能知识”。因此,寻求“智能知识”是大数据研究的核心价值。
数据挖掘、语义处理以及大数据技术是当前主流的知识挖掘技术。其中,大数据技术涵盖了数据挖掘、语义处理的主要技术,并融合了大容量数据处理的IT技术,形成了高效、快速的知识挖掘技术体系。
2.知识挖掘关键技术
大数据定义为无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合,且大数据具有数据量巨大、类型多、流动快及潜在价值高四大特征。
数据挖掘技术利用统计分析技术和人工智能,通过对某类对象关联数据的汇总、分析和比较,进行关联度分析、聚类分析、概念分类、偏差检测、自动趋势预测、信息摘要提取等处理,从大量数据中提取其中隐含且具有潜在价值的知识和信息。
语义处理技术可以将文字、图像、声音、位置等信息转变为人与机器、机器与机器之间可以相互理解的上下文知识。目前,逐步成熟并商用的多种人机交互模式,如语音交互、姿态感知、脑波控制、眼球控制、穿戴式设备等,均需要以强大的语义处理技术作为核心。
二、航天领域的大数据技术需求与应用模式
1.专业维度知识挖掘
研究院按照专业层级构建了基于专业的知识分类体系,分类科学且内容丰富,同时在“十二五”期间完成了各专业知识资源的梳理与采集工作。届时知识库内容将足够庞大,如何有效利用研究院50余年积累的宝贵知识财富已成为新的问题。针对航天产品研制知识资源的数量大、复合类型多、知识异构等特点,研究院已采用基于语义处理技术的知识地图以及知识统一表达的技术手段实现了专业知识资源的语义管理。
2.工程维度知识挖掘
航天产品研制是系统工程,研制周期长、涉及的工程岗位多。在工程维度进行知识挖掘应用,首先需要对航天产品研制工作场景进行辨识。
一是基于知识挖掘的研发设计方法。
基于知识挖掘的研发设计是现代产品设计的一种复用方法,可实现以知识为核心的产品创新设计,大幅缩短设计周期、降低产品成本。该方法将充分借鉴和利用以往研制经验,并将研制经验转化为指导航天产品研发的定量化知识,形成基于设计实例、专家经验、流程模板等的知识库内容,驱动产品的需求分析、方案设计、设计优化、综合权衡与评估等多个环节。笔者以专业设计模板与成本分析技术为例进行说明。
专业设计模板技术以成熟的设计知识和专家经验为基础,提炼出航天产品研发设计阶段专业模板的构成、接口规范化、封装方法以及组件化等的定义,以实现研发设计的快速建模。对航天产品研发设计分析流程、支撑知识资源、软件算法以及专业耦合关系进行深入分析,构建航天产品研发设计的专业设计模板。在设计新产品时,通过在设计模板库中选择合适的模板并设置相应的参数,即可利用已有知识和经验快速生成新的方案与模型,实现设计知识的共享复用,提高航天产品快速设计的能力,提升总体设计效率。
成本分析技术是设计方案评估的重要手段。在成本分析工作中最困难、最基础、最关键的是历史成本数据的高质量搜集和管理。构建基于知识挖掘的航天产品成本知识库,可在方案设计过程中对产品全生命周期成本进行合理、准确的估算与分析,将数据转化为可复用的成本模型和知识,并预测成本与性能、能力、技术之间的变化趋势。
二是基于知识挖掘的故障诊断知识库建设。
故障诊断系统通常与设计、制造、装配以及维护保障等工作紧密结合,其核心是对特定模型进行描述、归纳形成故障模式集。该集合可具备多种形态,如先验知识集、逻辑规则集、设备功能模型集等,分别从专家经验、设备运行过程以及设备数学模型等角度挖掘故障模式。通常,先验知识与设备功能模型集都偏简单或过于复杂,实际应用中以逻辑规则集为主。
故障诊断逻辑规则集的知识挖掘过程可分为2类:一类是注重隐性知识挖掘,主要在产品应用前完成;另一类侧重于显性知识挖掘,采用统计等知识挖掘模型归纳知识库。
基于统计的故障诊断知识挖掘方法以统计学和人工智能为技术基础,不需要提供除数据以外的任何先验知识,采用从数据中提取的客观规则对问题的不确定性进行描述,将大量数据融合成有序的层次化故障诊断知识。常用的挖掘方法包括神经网络、粗糙集、统计分析以及模糊逻辑等,其中粗糙集方法在兼具统计优点的同时可以导出精简的规则,因此在故障诊断知识挖掘系统中较常采用,其流程如图1所示。
图1 基于粗糙理论的故障知识挖掘系统典型流程
3.管理维度知识挖掘
航天产品在预研、演示验证、研制以及运行维护过程中,产生了大量与设计、试验、制造、维护相关的质量、进度、技术状态、试验结果等多维度数据,如何使这些数据有力地支撑航天产品管理是当前面临的难题。在管理实践中,迫切需要采用大数据技术精确衡量预研、设计工作对产品、运维的进度与质量的影响。笔者以成本管理为例,说明管理维度的知识挖掘模式。
成本管理是航天产品项目管理的重要组成部分。在航天产品的研制过程中,用户方需要推行竞争性采办,加大价格审查和成本控制的力度;生产者需要开展成本工程建设,实现目标化、精细化、全生命周期的成本管理。航天产品研制是典型的大协作、多元化任务模式,各分系统单位的任务分工不同,成本类型差别很大,又相互关联,造成了成本管理和控制的复杂性。只有构建一个异构协同的成本体系,既兼顾考虑各分系统和各专业不同的成本类型特点,又具有统一计费、估算与核算的规范,才能更好地为方案评估和报价服务。
成本体系构建工作涉及单位多,需要记录全过程各环节的成本数据,需要将数据转化为可复用的成本模型和知识,需要分析成本与性能、能力、技术之间的变化趋势。因此,可根据航天产品在方案评估、项目报价、成本概算等方面的需求,构建知识挖掘算法,通过对多业务系统数据抓取、分析、聚合以及抽取处理,形成型号历史成本知识库以及成本估算模型,对产品的全生命周期成本进行估算与分析,快速评估各备选方案的费用,为项目决策人员在经费控制、费效比分析等方面提供决策依据,从而加强项目决策的科学性、可行性。
随着知识挖掘技术与大数据技术的深入融合,航天知识库将反应更为快速、涵盖更为全面、挖掘更为智能,盘活航天产品研制的历史存量知识,将会直接影响到产品的管理决策水平、成本控制、技术选用以及生产制造等方方面面。
*其他作者:杨秋皓、张巍(中国运载火箭技术研究院),王立伟、贾倩(中国运载火箭技术研究院研究发展中心)