基于网络智能的互联网大数据采集和应用
2020-10-20窦伊男
互联网大数据以信息传递和交换的形式反映网络空间和数字社会的行为,让应用场景更广泛,让“连接”更紧密,让网络更智能。
—北京浩瀚深度信息技术股份有限公司副总经理窦伊男
在数字经济时代,数据已经成为关键生产要素,发挥数据的生产要素作用,有利于促进国民经济高质量发展。挖掘数据信息能够驱动各行各业的变革并进行升级改造,国民经济和产业的进展会通过数据的应用体现出指数效应。
今天给大家分享的是一个细分领域——网络大数据的采集和应用。我将从网络智能的角度来介绍我们在这方面的实践应用。网络智能化能帮助我们从浩如烟海的网络数据中提取相关的信息,并且能发挥出这些信息的价值。
从我们的角度来看,新基建和大数据之间是相互促进、相得益彰的关系。新基建中涉及的5G、工业互联网等新型基础设施建设领域的发展,为大数据的采集提供了更为广泛的数据类型和更大体量的数据源。我们通过将这些业务、数据和产业进行交叉链接,能够创造出新业态和新的行业模式。
技术中心、数据中心这些基础设施为我们的数据存储、数据处理和数据应用提供了坚实的技术基础。大数据的应用也能够进一步促进新基建相关领域的发展和建设。在新基建方面的大部分进展来自于我们对数据的应用,新基建和数据应用是互相促进的关系。我们从各个方面看到了这些进展,如数据的应用和新基建促进了各个产业的发展和升级换代。技术中心、数据中心已经成为数字化转型的有力武器。
我认为网络智能化的概念是:互联网能够像人一样,对它所承载的网络业务和流量有认知,能够对流量和业务进行感知、识别、计量,在感知、识别、计量的基础上还可以做优化、管理、控制、分发,并且可以从不同的业务上提取信息、采集数据。
网络智能化的应用就相当于我们在实体世界的摄像头、录像机、照相机、红绿灯。我们把网络智能化的技术称为DPI技术,也叫做深度报文检测,它是对于网络流量二层到七层的流量全面检测分析和提取的技术。通过对网络流量的分析,我们可以了解网络流量所承载的业务是什么,是哪些用户在使用,访问什么样的资源,数据的流通过程是怎样的。在这个基础之上,我们可以提取相关的信息,并提供这类系统的研制、开发和应用服务。
智能化解决方案分成三层,最下层是对流量进行处理的平台,负责对流量的实时处理、分类、感知、管理、管控、防护,该平台主要负责对恶意流量的阻断和对各类业务信息的提取;中间层基于流量处理平台对从流量里提取的互联网大数据做相关的关联、存储、共享、应用分析;最上层是应用层,针对应用场景提供数据应用措施。
整个解决方案里有两个突出特点:第一个是流量平台涉及国家级的运营商运营的网络,如国内的网络跟国外互联互通的接口、三大运营商之间的互联互通接口、省级的网络接口等信息,网络规模和流量规模非常大。在这样的流量规模、网络范围下,实现“业务有认知、流量能管理、信息能够实时提取”相对来说比较困难,但通过技术积累和专用的硬件设备,我们实现了这样的功能。
互联网大数据采集是网络智能化的重点,通过技术手段,我们从互联网流量里提取相关的信息。互联网里的业务繁杂,要提取相关的信息我们就要对流量和模式进行识别。我们可以将不同的业务信息,通过提取,形成结构化或者非结构化的信息数据。我们的信息采集点分布在各个运营商主要的网络点上,我们可以提取国内网络在运营商一方与国外互连的链路信息,包括运营商之间互连的流量点、每个省流量汇聚以后在出口处的采集点、大型IDC的出口、移动网络的核心网络采集到的信息。因此,我们采集信息的范围非常广泛,采集到的信息非常全面。将这种提取信息模式与提取信息广度结合,我们可以在很大的程度上配合运营商采集到详细的互联网数据。
互联网大数据在采集上对技术要求较高。但大数据的应用离我们并不遥远,并和我们每个人息息相关。新冠肺炎疫情中最常用的位置信息及其关联的信息也是互联网大数据的一种,它实际上是通过提取我们手机移动核心网的位置信息生成的。
互联网大数据有这样几个特点:一是全景的,我们在较大网络范围采集到的信息包括了几乎所有的用户、资源、网络业务、互联网业务的交互信息等;二是全息的,我们要将这些数据提取出来,它是可记录的。因为大数据的这些特点,数据具有很高的价值,我们在服务运营商时所做的应用实践只是其中很小的一部分,数据的价值还远远没有被挖掘和呈现出来。
在大数据应用这一方面,首先,我们希望大数据能够应用到更多应用场景中,因为我们最先看到了流量和数据的价值。其次,我们认为数据应该被理解为更好的连接方式,互联网最近十几年的商业创新更多来自于连接的方式,是信息在供给端和需求端连接方式上的创新,这些创新不仅激活了很多新的业务形态,还对原来的业务形态进行了全面的升级改造。最后,我们希望数据应用所搭建起来的体系成为新基建里另外一類基础设施,使企业、个人都可以便捷高效地利用这些数据。
(根据演讲内容整理,未经本人审核)