APP下载

智慧园区异构数据集成技术的研究与实现

2021-04-27叶佳帆倪安辰

电动工具 2021年2期
关键词:异构解析园区

叶佳帆,倪安辰

( 华鑫置业(集团)有限公司,上海 200233 )

0 引言

自18世纪中叶以来,人类文明经历了蒸汽时代、电气时代、信息时代的飞跃式发展,每一次工业革命所激发的生产总值远超上一时代的积累总和。今天,以大数据、云计算、5G、AI、ICT等新兴技术驱动的第四次工业革命将拉开人类社会迈入万物互联的新时代,同时也将大数据应用的场景拓展到工作、学习、生活的方方面面,成为人类社会数字化演进的基因片段,帮助人类更好感知真实世界的万物万象。

智慧园区作为建设数字世界的落脚点,是当今发展数字经济的新理念和新模式,是智慧城市的重要表现形式,成为践行我国“两化融合及四化同步”的重要载体。本文以智慧园区建设为例,结合智能化技术发展,提供异构数据整合解决方案。

1 现状分析

产业园区向智慧园区的演进形式大致可分为5个阶段,即:小商品集聚区模式——高新技术区模式——软件园产业模式——数字化产业园区模式——大数据智慧时代模式。其各自专有特性见图1。

图1 智慧园区发展阶段

2 发展瓶颈

随着技术革命日趋深化,智慧园区建设向着智能化、信息化、人性化的方向迅猛发展,逐步走入数据融合的深水区。

烟囱式数据孤岛致使信息流通不畅,增加了数据挖掘的难度和利用成本。缺乏统一的数据集成平台成为阻止智慧园区迈向大数据智慧化的桎梏。以城市消防远程监控系统的报警传输网络通信协议为例,依据GB/T 26875.3—2011标准要求的数据包结构见图2。在实际操作中,部分供应商采用自定义协议见图3。由此可见,即使是同一业务系统的通讯协议也会存在各种格式的数据帧,不同业务系统间不同的通讯协议并发执行时,给前端解析、存储、分析、展示带来巨大压力。

图2 数据包标准要求

图3 自定义协议

3 异构数据集成特性

随着5G、大数据时代的到来,异构数据集成技术持续成为数据研究领域的焦点。目前,智慧园区大数据呈现出新的4V特性(Volume——规模性、Velocity——高速性、Variety——多样性、Value——价值性),传统数据共享方式的适应性难以满足这些新特性的发展。[1]

数据治理上呈现以下难点[1-3]:

1)异构性

智慧园区建设投资大、周期长、供应商繁多,信息系统基本覆盖智慧园各项业务领域。随着智慧园区的不断发展迭代,园区不断建设各种新的业务功能的信息系统。不同的业务功能和不同的供应商制定了符合不同业务需要的结构化数据标准,这些各自为政的数据结构导致了智慧园区各个子系统之间数据的异构性。

2)分布性

由于空间离散,各地块的物业管理处分散在园区的不同区域,甚至城市的不同辖区。数据传递往往依赖网络,存在网络传输性能和安全性等问题。不同网络传输性能与数据丢包率的差异性,也令管理者难以统一数据采集标准。

3)自治性

各供应商数据源自治性强,可随意根据系统迭代更新需求修改自身数据结构,给数据集成系统的鲁棒性带来挑战。

4)异步性

业务信息系统分批建设造成末端传感设备的性能差异。设备代差直接影响数据传输频率的异步性和精度准确性。

5)语义冲突性

基于业务系统功能的不同,供应商对同一事物的认知角度不同。相应的,不同数据库中对同一实体的定义也存在很大差异。同一字段的不同数据类型、是否为空、数据兼容标准都给大数据共享集成带来挑战。

4 数据集成选择分析

进行数据集成实现方式的选择时,应考虑数据集成的可操作性、该方式所需投入的经济成本、数据治理的速度和延展性。其中,速度体现为实现数据治理与集成所耗费的时间成本,延展性为数据标准在数量和范围上的可扩展性。

若用S(Select)表示大数据条件下数据共享实现方式的选择,P(Practicability)表示数据共享的可操作性,C(Cost)表示成本,V(Velocity)表示速度,E(Extendability)表示延展性,则大数据条件下的数据集成实现方式的选择公式可表示为:

该公式中,若S理解为数据值越高越理想,则P、V、E可认定为正向相关参数,C为负向相关参数,E可视作大数据的拓展功能,作为加分项存在。同时,依据行业及相关传输技术能力的不同,数据集成公式的每个参数都需要一个衡量的权重比例(i、h、g)。基于以上考虑,数据集成实现方式的选择公式可进一步推导为:

根据上述公式,数据集成按传统数据标准化处理操作,主要为两种方式:一是分别联系原供应商,修改业务系统的数据标准;二是将智慧园区整体推倒重建。无论哪种方式,都将造成重复性成本。

5 案例分析

案例源于笔者参与的智慧园区应用开发方面的科研项目——华鑫智慧园区运营管理平台。该平台需要处理大量的异构数据,既有存储在数据库中的结构化数据,也有以文本文档、电子表格、视频文件等形式存在的非结构化数据。数据格式、类型不同导致读写方式上存在巨大差异,为平台综合查询分析和大数据透明访问带来困扰。为了屏蔽这些异构数据源在访问方式上的差异,需要一种面向异构系统的数据集成解决方案。因此,华鑫置业设计了一种面向智慧园区异构数据的集成方案。在保证各原有业务系统的通讯协议不变的前提下,为大数据挖掘分析做了有效的数据清洗和规范。集成方案见图4。

图4 异构数据集成方案

如图4所示,数据集成层介于业务应用与数字平台中间,通过统一数据标准接口将不同业务系统的数据进行抽取、清洗,归整,最终沉淀到数据底板。

不同的通讯协议,通过不同的网络介质传递数据帧。不同的帧格式需要不同的解析过程,哪怕是同一种协议也可能存在不同类型的数据帧格式。智慧园区各自为政的业务系统,更有着数不清的标准协议和自定义协议,不胜凡举。要将这些数据统一沉淀到大数据底板,除了要不同供应商配合修改通讯协议,还要统一数据库选型,协调所有系统升级步调,无论是开发还是运维难度都非常大。

打造数据集成平台,通过统一接口对接所有应用系统。平台按各业务系统的通讯协议,分别解析数据帧后,留存标准化数据记录在数据集成层的数据底板,统一向业务系统前端提供标准化数据,如此,留存在数据集成平台的大数据是规范后的数据类型和数据标准,为大数据挖掘和综合分析提供了有力保障。

数据集成整体架构呈倒漏斗型,见图5。

图5 数据集成整体架构

以华鑫天地消防报警系统为例,数据集成过程主要步骤分解为:

1)系统涉及国标协议和行业协议协议2种;

2)数据集成平台架设在以太网环境中,数据链路层执行TCP协议。服务器端分别启动“国标消防协议解析服务”和“行标协议解析服务”,端口号分别为:7001和7002,服务集采用多线程模式;

3)根据2种协议帧的解析内容,分别提取数据区有效数据;

4)通过对端链接信息,识别所属地块;

5)按照标识位识别系统末端传感器信息,进行数据解析;

6)解析后的数据按照统一规格和数据类型存入数据底板的消防报警系统数据集。

7)前端展示系统调用统一消防报警API接口查询数据,整理分析后做BI展示。

鉴于保密协议的规定,本文不便提供平台的源代码,仅以流程图作为异构数据集成逻辑的描述,见图6。

图6 异构数据集成流程

6 结语

大数据时代到来使智慧园区的未来变得具象化和可预期化,目前热门的数字孪生技术也正是基于异构数据集的分析挖掘而不断推进迭代。5G、ICT、物联网、云计算等技术的深度融合进一步加快了异构数据的汇总与堆积。搭建数据集成平台是实现智慧园区各业务信息系统间异构数据共享的优质解决方案,也是园区数据治理整合,实现全局数据共享,推进大数据时代智慧园区数字孪生的重要前置环节。

猜你喜欢

异构解析园区
ETC拓展应用场景下的多源异构交易系统
离散异构线性多智能体系统的输出一致性
试论同课异构之“同”与“异”
待疫散云开,来园区赴一场春的修行
三角函数解析式中ω的几种求法
苏通园区:激荡开放潮 十年再出发
凝聚与铺张——孙绍振教授《以丑、呆为美》两岸同课异构教学观摩后记
孔学堂 纯粹的国学园区
睡梦解析仪
复合场中类抛体运动解析