兼顾新老用户和业务的OSS演进实践
2018-12-24张昱马勇
张昱,马勇
(中国电信股份有限公司山东分公司,山东 济南 250101)
1 引言
OSS(Operation Support System,运营支撑系统)是面向通信网络的运营支撑系统,是解决不断增长的用户规模、不断扩大的网络规模与不断提升的客户服务标准、日益精确的管理需求之间的矛盾中的关键一环。在建设初期,其主要功能是接收由营业前台受理的用户订单,调用网络中网元/网管的能力予以配置实现,并对后续用户业务运行状况进行监控和反馈,提供服务质量保障。但随着网络技术的不断演进,OSS的功能也逐渐多元化,目前的OSS系统包含了诸如施工调度、服务质量管理、故障管理、开通管理、性能管理、订单管理、资源管理、告警管理、统计分析等多项功能。
近些年来IT技术快速发展,互联网、物联网、虚拟化、云计算、大数据等技术层出不穷,运营商也在将其应用到网络基础架构和支撑手段的构建中,尤其是IP技术、虚拟化技术、大容量传输技术等结合后产生的SDN和NFV等技术,为整个通信网络基础架构带来了革命性的思考。在网络运营支撑领域,各大运营商也都进行了积极的探索。前期,中国电信和中国移动参与了OPEN-O项目及后来的ONAP(Open Network Automation Platform)项目,旨在解决新网络基础架构下网络编排器与支持新标准网元间的互操作问题,并探索在此场景下所能带来的优势。
但网络及管理的演进不仅仅是技术升级的问题,更需要考虑存量技术和存量用户的平滑过渡问题。目前,各大运营商的通信网络上均是多种通信技术并存,并且这些技术都有大量用户在使用。在这种情况下,仅从网络及网络管理架构变革方面来考虑,一定会造成新老用户在业务使用上的感知不一,进而引发服务问题。同时,因为多种不兼容技术的并存,也会带来网络管理本身复杂度的大幅增加。因此有必要对OSS系统如何在网络架构变革中平滑演进做深入思考,进而提出一个兼容新老用户、新老业务的演进思路。
2 OSS系统的现状及存在的问题
2.1 OSS现状
现有OSS系统是多年以前搭建并在此基础上进行多次改造和扩容后形成的,为电信运营商的业务发展提供了有力的支撑,但其设计思想和理念仍是基于多年前的网络管理需求和IT技术水平。
最初,OSS的出现是为了提供业务开通能力,随着运营商对其管理需求的不断增强,OSS系统陆续增加了故障处理模块、质量管控模块等。正是由于这种建设思路和模式,现有OSS系统中的各子模块基本上处于各自为战的状态,形成了多个独立的系统,在电信内部有资源管理、服务开通、服务保障、质量管理等系统,在移动内部有综合资源管理、无线网优、业务监控、综合分析等系统。这些系统往往是单独立项,不同厂家建设,自成体系。虽然有系统间互联的接口,但接口上承载交互的信息往往只占总体信息的很小一部分,形成了事实上的流程孤岛、数据孤岛。
在OSS系统建设要求上,所有运营商都是以电信级的可靠性要求来做标准的。因此,各大运营商的OSS系统都是选用当时业界最成熟、经过多年检验的系统架构、编程语言、接口方式进行系统设计,这在当时是非常有效的,高可靠的OSS系统有力地支撑了电信业务的发展,为电信运营商带来了良好的口碑。但是这种高可靠性系统设计也直接带来了系统横向扩展能力差、对网络和业务层面的需求变化满足困难等问题:在网络架构发展演进时难以及时接入管理,在用户业务形态发生改变时难以及时配置展示,在业务量出现突发状况时难以自如应对,尤其是在目前用户个性化需求彰显的时代,OSS系统对这种变化响应困难,矛盾愈加突出。
在业务流程方面,最早的乃至现今的OSS系统都是被动承接前端系统传递过来的流程要求。从支撑固定电话业务,到宽带业务,到移动电话业务,到增值业务等,都是由电信前端部门设计业务,后端系统配置流程、实现接口功能,销售一线对用户展示、推广、受理,并最终提供服务。但在当今强调个性化、强调自主配置的时代,这种运营商主导的业务流程实现模式已远不能适应用户的需求,现有的OSS系统也不能支撑这种需求。同时,用户对客户服务的要求也越来越高。尽可能快速的服务响应、尽可能透明的处理过程、尽可能方便的信息传递,都是目前OSS系统不能灵活实现的。
目前OSS系统与网元/网管的互通方式为一对一接口互联的方式。鉴于OSS系统与网元/网管之间的接口没有统一的定义,目前基本采用OSS系统适应对端系统接口的方式,这就造成了接口的多样性,每上一个系统就需要新开发接口并逐个联调,在对端系统软件升级时还面临接口改造的可能。同时,多个外部系统和接口,造成了在业务实现时必须进行多方的对接、联调、测试,相互影响的情况屡屡出现。
近些年来,OSS域也引进了企业总线、开放接口等概念,旨在解决系统间数据共享、协同、传送、以及统一接口定义等问题。但架构的不统一,厂家支持的不一致,以及多种框架标准的存在,在电信OSS域内部造成了新的“七国八制”现象,业务和数据的真正互联尚有很多工作要做。
2.2 现有OSS系统的问题
(1)烟囱结构,系统的协同效率不高
由于建设思路及建设路线的原因,OSS域的各子系统存在着事实上的“软烟囱”。究其原因,建设初期粗放的功能划分,未经深层次需求分析和架构设计、以表象需求来指导建设的模式,导致了子系统独立建设的现状。加之系统间互联接口的功能和作用范围有限,造成系统协同的根基不足,虽然都在OSS域的范畴之内,但各系统并不是事实上的一个整体,也就是形成了“软烟囱”。
(2)老旧架构,系统的技术效率不高
现有OSS的架构是基于多年以前的理念设计的,已不能适应现阶段互联网思维的要求:系统的横向扩展能力不足,不能弹性适应业务量的变化;其功能模块划分、解耦的方法,已经不能适应目前业务和功能快速迭代的要求;高可靠性带来的高耦合度也不能及时响应业务需求的变化。
(3)流程冗余,系统运营效率不高
现有OSS流程支撑的仍然是多年前的管理水平和应用场景,流程冗余、低效。原因为:一是在系统设计初期,系统间数据共享和交互的自动化程度不能满足业务实时响应需求;二是出于当时管理水平和技术水平,流程中的很多环节需要人工参与。流程设计的基本出发点已经有所变化,系统也必须调整以提升业务处理效率。
(4)应用不足,系统的增值效率不高
互联网时代,云和大数据等技术带来了应用和分析上的许多变革,运营商们也进行了很多尝试,基于网络数据的分析和挖掘对改善网络质量、强化业务支撑和提升用户体验等方面发挥了巨大作用。但数据应用领域仍然形成了以专项形式存在的多个独立分析系统,造成了网络数据分析领域的新“软烟囱”。造成这种状况的主要原因还是在于OSS系统没有统一的规划和规范,数据隔离的现实存在,从而无法进行有效的整合和分析挖掘。
(5)效率低下,系统的资源效率不高
在基础资源使用效率方面,OSS系统也是基础资源使用大户。由于不能实现计算能力的横向平滑扩展,系统实际上是闲时闲、忙时忙,基础资源的使用效率不高。同时,由于架构本身的不足,导致每次业务升级都需要大量研发和升级工作,对运营商来讲是建设成本的浪费,对厂家来讲则是维护难度和维护成本的逐年增加。
3 OSS的演进趋势及问题
3.1 业界在OSS演进方面的实践
OSS演进是配合通信网络演进展开的。随着IT技术、计算技术的不断发展,通信技术和IT技术在很多方面出现了融合,尤其是SDN/NFV已经成为运营商公认的网络转型技术基础。现在业界普遍认为,未来网络的SDN/NFV转型需在四个层面实施重构,一是网络节点重构,二是网络架构重构,三是网元功能重构,第四则是网络管理与业务运营的重构。其中第四方面的重点就是对现有OSS的重构,以现代化的技术架构实现对下一代网络的管理和对新业务的支撑。计算技术基础上的虚拟化,网络技术基础上的云技术,对网络的演进和变革带来了新的思路,同时也给自动化、智能化、弹性的网络管理带来了新的希望。在目前业界相对统一的思路,就是以业务编排的方式来组织网络管理,既实现对资源池的管理,也能实现对网络和网元部署及生命周期周期管理,同时实现业务自动调度和业务的对外开放。
2017年4月,国际上的两大开源项目OPEN-O与OpenECOMP宣布合并,组成新的“开放网络自动化平台”,也就是ONAP项目。这个是第一个将大多数运营商与大多数供应商联合起来、构建真正的服务自动化平台和业务流程平台的开源项目,其对网络运营支撑也做了详细的规划。从ONAP的演进的思路来看,网络运营支撑系统的演进就是建设一套新架构下的支撑体系,以满足对新网络架构的管理,并对其上的新业务进行编排调度。
3.2 新一代OSS的思考不足
ONAP项目是从未来网络的整体出发进行设计和规划的,是目标方案,而非演进、落地实施方案。从ONAP项目2017年11月发布的阿姆斯特丹版本的应用情况来讲,也都是针对某一领域的网络部署和实施,是新业务拓展的尝试。对电信运营商来讲,如果按照目标体系实施,网络改造和用户迁移对运营商来讲无疑是很大的成本压力。同时,电信运营商的大多数客户目前都是承载在老的网络架构和业务体系当中,如何让其享受到新的网络管理/业务管理层带来的优势,业界尚未有明确的思路。
因此,新一代OSS系统的实施必须是考虑兼顾新老用户和业务的演进,一定是对网络基础架构演进、网络支撑体系演进、用户业务和服务演进、以及网络和用户迁移等多方面综合考虑的结果,是一个综合课题。目前来看,新一代的OSS需要解决以下问题:
(1)解决目前OSS系统存在的问题;
(2)充分对接网络架构的演进;
(3)平衡网络的演进和继承之间的关系;
(4)在演进过程中,充分体现用户至上的理念,为用户提供最优的业务体验;
(5)充分发挥IT技术带来的技术红利;
(6)要从系统功能划分、系统间接口定义、优化流程等方面着手进行系统架构调整。
4 兼顾新老技术和业务的演进思路
以保障新老用户总体价值最大化为目的,从用户的感知和体验出发,以新技术和业务需求为驱动力,则新一代OSS演进思路一定是兼顾新老技术和业务的演进思路。
首先,新技术和新业务的发展趋势是不可逆转的,其带来的业务的多样性和灵活性也是老网络所不能替代的,所以要积极拥抱、充分发挥新技术和新业务的优势,创新地设计OSS系统。
其次,鉴于现网的大多数设备仍然是老技术组网,为了确保网络的平滑演进,一定要综合考虑新一代OSS系统对新老技术的兼容,必要时要引入适配层以解决兼容性问题;在用户业务方面,必须考虑用户在使用、订购等场景下,新老业务的灵活性、个性化、便捷性等方面保持一致。
再次,在系统架构方面,首先考虑尽量简化网络层级,将原先的网元、网管、综合告警、OSS、分析等层级,简化为网元层、平台层、应用层的三级结构;其次,要将通信网络功能以服务的形式暴露出来,以调度的方式实现灵活的业务组装和编排,以及数据交互。
最后,在系统流程方面,根据目前OSS域数据产生、存储、流转的实际特点,从业务的需求、特性和趋势出发,对既有的流程予以调整和改变,充分利用IT技术带来的便捷、快速等优势,以技术和业务的双轮驱动完成重构。
最终实现的OSS架构,是在功能层完成具体的原子功能并实施功能暴露,以功能编排(包含业务编排和控制功能编排等)、数据采集、数据分析等模块形成应用层,完成功能的高阶封装,灵活实现多种具体应用并对外提供服务。
5 新一代OSS系统的演进实践
从整体讲,新一代OSS系统的演进实践主要集中在四个方面,也就是架构重构、流程重构、数据重构和协同重构。在实施策略上,则坚持主要模块(即OSS系统本身和资源系统)完全重构、周边系统(即网管系统等)聚焦接口重构、外围系统(即集团管辖系统和BSS域系统等)尽量不变的原则,确保系统演进的顺利实施。
5.1 架构重构
在系统架构重构方面,新一代OSS系统架构重构的范畴囊括了所有在OSS域的原有系统,这是基于系统协同要求而确定的;其次,确定了系统架构必须搭建在云计算基础架构上,也明确了将微服务软件架构应用于OSS建设。架构重构主要解决功能分层和功能间接口设计等问题,也就是明确了解耦的方式和形式。
(1)功能分层
新一代OSS系统的功能分层本身也是从两个层面来进行的。
1)从OSS域的整体来看,将域内的所有系统划分成了数据层、基础能力提供层、服务编排和应用层。
数据层主要是对采集/获取的数据进行存储,在具体设计中有结构化数据存储和非结构化数据存储两部分。结构化数据存储采用关系型数据库实现,主要存储OSS域系统自身的相关数据、与周边系统协同的数据等,非结构化数据存储采用非关系型数据库实现,主要用来存储性能数据等大数据量的数据。在实际的设计中,结构化数据的存储往往与各子系统的建设一并考虑,而非结构化/大数据类的数据,则是原有的大数据数据分析平台的能力共享出来给OSS域内系统使用。
基础能力提供层主要是对网络自有能力进行封装、调用并对外暴露。在这个层面主要包括网元、专业智能网管系统(NMS)等。它们将流程重构后需要对外提供的网络功能予以抽象和实现,并在能力中心进行注册以实现能力的暴露。在能够灵活实施接口改造的系统中(主要是智能网管系统),采用系统升级的方式提供这项功能,且后续均以此方式实现新的功能;对于部分不能实施改造的系统(主要是直接提供服务的网元等),则采用OSS系统进行适配的方式实现。
服务编排层与应用层主要是组件能力中心将基础能力提供层上的低阶能力注册管理,编排中心将低阶能力予以编排(组装)从而形成高阶能力,各类应用则调用高、低阶能力形成对外的服务和具体的应用,在此体系下,业务开通、故障派单、网络监控、网络调整等功能均在能力提供框架下实现。
2)从对OSS系统本身的功能划分出发。在新的技术体系和技术架构下,OSS系统的功能划分为Cloud中心、能力中心、编排中心、策略中心和监控中心几大部分。
Cloud中心搭建在云计算的基础架构之上,实现了系统的容错、均衡、平滑扩展等能力。
能力中心主要提供了能力的注册功能,这些能力包括了网管按照开放标准实现的能力,包括了在OSS侧封装的网元的能力,也包括了在编排中心进行高层抽象后实现的各种能力。
编排中心的主要功能就是结合业务的实际需求,将在能力中心注册的功能编排组合成新的能力,甚至是可以直接为前端所调用的能力。编排中心是业务灵活性的关键所在,其实现也必须是灵活的。
策略中心实现的主要功能是建立一套可配置的策略机制,使流程在不同的场景下的适应性大大增强。在业务开通流程中,根据业务类型的调用路径的配置,在故障处理中,是基于地域的派单策略的实现,在网络调整割接中是根据业务级别的审批策略等。
监控中心是对系统本身的监控的实现,在后续还将对OSS系统所管辖的网络的性能数据进行实时收集,从而实现网络的随时调整响应。
(2)接口定义
接口定义和接口调用方式的设计是系统之间耦合的形式,对系统的扩展性、容错能力等有着决定性的作用。借鉴IT界近年来的实践,新一代OSS系统应采用全新的接口定义:在服务注册和服务的消费过程中采用目前业界最常用的HTTP/REST方式进行接口调用,接口的数据格式则采用JSON格式。采用这种方案的主要优势在于接口设计及其调用简单、成熟,降低了周边系统的改造压力。同时,还可以很容易地实现系统的负载均衡、容错处理等,以新技术能力提升了系统的可用性和可靠性。
在最终设计中,根据业务类型不同,可定义开通类、日常作业类、维护类、管理类等多类业务接口。
5.2 流程重构
流程重构是简化系统、提升效率的关键所在。在实施流程重构的过程中,首先要分析现有业务的每个环节及其要求,研究现阶段业务的特点和最优流转路径,了解用户和网络的不同诉求,并在此三项思考的基础上重新制定各项流程,明确支撑流程运转的基本服务能力(即原子能力),进而为接口定义提供基础。
流程重构主要对业务开通流程、维护生产流程、管理流程、业务发布流程等四项流程进行了分析和重构,强调流程的自动化运转、系统间协同和智能化提升。前三项流程主要是针对流程中的各环节进行了梳理和优化,强调的是流程的自动化运转和智能化程度,将原先大量需要人工参与的环节予以简化或由系统自动执行,既提高了效率,又减少了错误的发生。
业务开通流程主要是从冗余环节梳理和流程自动化方面着手,以提升用户在开通上的感知。结合现今各网管的技术能力、资源管理水平和客户需求,将以前很多需要人工参与的环节进行了标准化处理,使这些环节自动化,对于可以省略的环节,则予以删减。经过这样的梳理,系统的自动化程度进一步提高,系统内的流程总数也大幅度下降。
生产维护流程方面强调的是自动化和多专业协同,目的是解决各专业系统之间的烟囱问题。在系统改造的过程中,将前期的专业间关联的思路进一步深化,梳理明确了系统间流程、数据、功能之间的先后顺序、上下层级、主从关系等逻辑,并在此基础上形成新的生产维护流程。比如割接流程、故障处理流程等,都是应用了这些关系,将部分人工处理和沟通的环节由系统自动实现,提升了效率。
在管理流程方面则突出系统协同。充分利用有源网管的功能,将环节间需要人工确认的部分在系统中落地,以规则和前置条件查询接口的形式出现,极大减轻了管理人员在流程中的人工操作,也使管理的精确程度大幅增加。
在业务发布流程,则主要是从前后端协同的角度出发进行重构,完善端到端业务发布流程。项目充分发挥能力开放所带来的优势,制定了“网元能力定义网络服务,网络服务定义网络产品,网络产品组合市场销售品”的思路,将网络能力发布到能力平台供前端系统调用,最终形成了从OSS至CRM的正向产品发布流程,真正实现了网络能力的即时提供和对前端业务的快速响应。
5.3 数据再梳理
基础数据是网络协同的基石所在,在新一代OSS系统设计中,应用可以分散部署甚至分布于不同系统,但是基础数据来源必须唯一。
数据再梳理主要经过了三个步骤。首先要确定数据的直接来源,以及哪些系统使用了什么数据;第二,对数据进行分类,实践中根据数据特性和使用方式,分为管理类数据和生产类数据两大类;第三,对数据的使用规则和数据协同进行梳理。
在数据来源方面,根据数据的产生方式不同可以分为有源数据和无源数据。有源数据是可以在有源网管上自动发现和管理的,可以直接、准确地反映现网的资源、配置、性能等情况,因此有源数据确定以有源网管作为唯一出处和管理责任主体。而无源数据是人工录入和日常维护的,包括机房、ODF、光缆等。
在数据分类方面,将数据分为生产类和管理类两大类数据。直接支撑网络生产的数据就是生产类数据,主要是底层系统产生的网络数据和过程数据,比如端口、板卡、故障、性能等,直接支撑了故障处理、业务开通、性能分析等生产活动,追求的是效率。管理类数据是配合公司管理要求而存在的一些数据,通常以属性的方式进行管理,比如资产属性、项目属性等。管理类数据主要采用两类方式管理,一是集中管理,二是分散管理。目前采用的是对能够集中的数据,统一建设集中管理数据库,对外提供服务和接口;对于网管管理效率高的数据,则在网管系统中单独建表管理。这样的设计,综合考虑了生产的高效和管理的集约、精确,是一个平衡的方案。
第三个层面,对数据的使用进行协同。一方面,数据协同可以用来增强数据质量,提升系统效率。在山东电信新一代OSS系统建设中,创新性地将无源数据的管理与有源数据管理关联起来,也就是将无源端子“物理”连接到有源端口上,通过有源告警端到端的关联,实现对无源数据的精细化管理。另一方面,项目中的数据协同也采用了多项新技术。由于项目中的数据分散在不同系统中,为了提升系统的协同效应,结合数据的使用频率、更新频率、对业务影响的程度等,设计了ETL工具方式、消息队列方式、接口方式、文件协同方式等,保障了数据在系统间流转的顺畅和有效。
5.4 前后端协同
系统改造一大目的是提升系统之间的协同效率,尤其是前后端之间的协同。新一代的OSS系统必须要和CRM等前台系统紧密结合,也必须和经营分析系统等后端系统密切配合。与前台系统的配合主要体现在流程上,而与后端系统的配合则主要体现在数据上。
与前台系统的协同焦点在CRM,涉及业务开通、变更、发布等,重点在流程和标识,尤其是关键标识。通过确定用户逻辑标识、电路代号、标准地址等作为不同业务的唯一标识,并在后端网络中对这些标识进行统一,保证了流程的统一和顺畅。与后台系统的协同主要体现在数据协同上:协同的内容主要是对管理数据的支撑,而管理数据支撑的关键是数据一致、数据同步、数据来源唯一。
6 新一代OSS系统在山东电信实施的效果
2017年初,山东电信在兼顾新老用户、业务和技术的整体演进思路下,启动了新一代OSS系统的建设工作。通过梳理现网数据需求,梳理周边系统20多个,需交互的数据表格1000余张,字段超17000个,并在此基础上完成了架构设计、流程重构、数据结构梳理等工作。2018年1月份,完成了网络功能的服务化改造,移动及平台类相关业务流程上线,2018年4月份,完成了系统功能的开发,2018年7月份完成了全省17地市上线运行。
经过系统改造及运行,在管理效率、运营效率和技术效率三方面提升明显。管理效率提升方面,重点实现了管理的简化,业务流程从574个减少到19个,资源系统数据表从995张减少到138张,并简化了59个OSS管理流程,管理效率提升明显;运营效率提升方面,支撑能力大幅提升,移动及平台类业务平均开通时长由140 s降为4 s,光宽类业务10分钟外线率超过98%(其中1分钟外线率超过94%),停复机环节的3 s复机率达到99.54%,运营效率提升明显;技术效率提升方面,通过新技术应用及持续优化,数据库资源占用率在无计算资源调整的情况下降低了60%,系统间数据协同响应时长由10 s降至1 s以下,技术效率得到了彰显。
7 结束语
新一代OSS系统是通信网络演进的关键,是提升用户感知、提高通信企业服务水平的关键,本文提出了兼顾新老用户、兼顾新老业务、兼顾新老技术的演进思路,将给网络和业务的平滑演进带来借鉴和促进。