智能制造解决航天问题
2017-02-27
大数据在产业趋势中分为几个阶段:第一个阶段是性能扩展阶段,即依靠分布式计算手段,提升了处理的能力,实现了大数据分析能力的拓展。这个阶段要解决数据的采集和查询需求。
第二个阶段是资源管理阶段。这个阶段形成了包括虚拟化、容器技术等一系列相关的技术体系。将虚拟化等技术和大数据结合,实现了资源管理,让数据中心更加良性地发展,让资源更加地合理分配和应用。
第三个阶段是发现价值阶段。在前面两个阶段我们取得了一些技术突破,接下来就进入深水区去发现价值。目前我们处在这一阶段,建立数据治理体系,让数据变成一种价值,是我们当下需要解决的事情。
为何提出大数据一体化解决方案?
我们可以实时分析应用场景,如航天轨道发射过程中的轨道分析、生产过程中質量的筹建、即时查询、多维分析、交互式分析、可视化展示、离线分析,还有数据清洗、指标统计、主题建模,都是分析场景解决的问题。
我们拥有数据、工具、模型、方法。数据:需要把所有的数据按照它的含义关联标定,构建一个数据网络。工具:有哪些工具能解决分析的问题。模型:数据可以通过工具产生模型,不同的建模手段产生的不同模型,和数据之间存在关联。方法:发现数据价值的方法和设计思想,并构建信息社交体系,让航天所有分析数据的人员形成一个整体的分析社交网络,通过这个网络生成一个模型的交互式模式。这个平台发布的不再是给领导看的一张报表,而是让所有的信息在人员之间流通起来。
为此,一方面我们提出航天大数据一体化解决方案,从采集、存储、分析、可视化展示和搭建整个能力的建设;另一方面,我们有资源云的设计,建立一个信息资产平台,让大家在平台上展开社交。
实现智能制造解决航天问题
我们整体产品理念:融入大数据开源生态,依托生态形成完整的大数据解决方案;整合上下游产业生态,形成商业大数据私有云“交钥匙”工程;突破结构化数据统一存储难题,同时支撑秒级检索和高效分析;建立以数据为中心的大数据治理生态体系;围绕行业数据价值,在数据分析算法上形成突破。
在数据接入层,我们针对复杂异构数据、日志类数据、互联网数据特点,分别构建ETL采集系统、实时数据接入系统和网络爬虫系统,满足数据接入业务需求。ETL采集系统将采集到的数据,经实时计算平台进入统一加载平台,最后融入我们的数据存储平台。
在数据的存储层,首先要解决结构化数据统一存储问题。目前传统的存储虽能解决一些问题,但只能满足某一类业务需求。
而要将结构化数据统一存储,需要满足检索、统计、范围这三类业务需求。我们通过专利储存索引技术—行列混合压缩、粗粒度摘要检索和稀疏Hash索引,有效地解决了这些问题。
在将分析引擎和存储引擎进行对接的层面上,我们拥有以基于数据分布感知的存储层二阶段数据访问协议为界面的分析系统融合方案。
上层的计算引擎可以是Spark RDD/DataFrame、MPI、Hadoop MR等;在存储层,为结构化和非结构化数据构建了统一的存储系统,通过这种方式进行位置感知。文本挖掘技术以结构化数据挖掘MPP框架为核心,针对文本数据,建立以分词为中心的自然语言处理体系,并为常用场景预置通用分析算法。
在资源层面,神软智汇云平台可以提供长时服务和一次性服务:长时服务是指服务启动之后一直在运行,服务内计算作业资源管理由服务负责;一次性服务是指服务启动后仅运行调度作业,服务内计算作业资源运行时动态申请。长时服务可以提供毫秒,一次性提供的是离线分析内容。
在数据治理层面,我们把整个数据按照技术和业务进行分析,实现资产的统一管理,可以构建信息资产库,在数据中建立不同的数据库和模型,将所有这些整合在一起形成信息地图。通过信息地图,使信息资产流动,从而实现共享和交换,最终构建信息社交体系。
在案例方面,作为航天企业,首先解决是工业大数据的问题。在工业大数据体系中,我们要解决销售、制造、设计和供应链的整合。通过这种方式实现智能制造—智能设计、智能监控、智能管理、智能生产的大平台,来解决航天的问题。(根据演讲内容整理,未经本人审核)