电信大数据的研究与应用
2016-06-06杨明川贾元昕
杨明川+贾元昕
随着互联网+的提出与发展,大数据分析作为传统行业分析、利用数据的技术手段,迎来了新的发展。电信运营商具有得天独厚的数据优势,但数据质量、分析能力及隐私安全等问题对运营商发展大数据提出了更高的要求。本文总结中国电信“灯塔大数据行业应用平台”过程中的一些经验,探讨了中国电信运营商在大数据领域的技术创新与研究成果,面向互联网+的大数据挑战进行分析。
互联网+在大数据应用中的机遇与挑战在大数据浪潮中,电信运营商是率先开展大数据研究和应用的行业之一。通过利用运营商海量的网络大数据资源,各个运营商都构建大数据平台并开展大数据创新。对灯塔大数据定位于整合多源数据、打造能力平台、创新行业应用, 通过对800亿电信数据的脱敏、互联网数据(来自地产、金融和社交)的抓取和对第三方(如法院、银行、人力)数据的接入,形成庞大的相对基层的数据量;并对多源数据进行整合,控制数据质量,增强数据融合,同时对数据能力封装,由此开展数据行业应用创新。
在大数据应用到互联网+的过程中,目前发现还有大量的问题需要解决(见图),主要包括如下三个方面:
数据质量不高是常态,如何建立更加有效的分析方法?
数据的价值密度是关键,如何寻找价值高地?
用户的隐私保护日益重要,如何找到平衡点?
运营商大数据关键技术研究
为了有效的服务于互联网+,大数据需要在如下几个方面进行技术突破:
(1) 数据拼接技术
(2) 高阶深度标签技术
(3) 行业知识建模技术
(4) 基于场景的智能推荐技术
(5) 海量模糊数据降维和关联分析技术
(6) 大规模交互式数据可视化技术
(7) 数据安全和隐私保护
文本对其中几个关键技术进行介绍。
数据拼接技术
大数据的一个特征是异构多维,只有将来自不同来源的异构数据进行有效的整合,才能真正发挥大数据的价值。犹如瞎子摸象,每个单一来源都只涉及一个单一的侧面,只有把不同的侧面重新组合并且关联起来,才能完整的拼出一只“大象”。但是这个工作远比想象的要难,原因有几个方面:数据格式不同;数据标识(ID)不同;数据覆盖不同;数据计量标准不同(特别是经过一定处理后数据);大量的数据噪声(重复数据,错误数据)。这些因素导致将不同数据拼接成一个完整的立体数据具有非常大的挑战。
然而,在这方面,运营商有较大的资源优势。结合运营商数据广度覆盖的特点,有可能作为所有数据的基础数据而实现数据拼接功能。在技术上,我们开发了基于图的数据模型,进行数据拼接。
高阶深度标签技术
用户画像一直是大数据研究的重点方向。在DMP中,系统根据用户访问轨迹来打标签,但是DMP通常仅仅通过关键词提取来打标签。为了进一步满足行业大数据的应用需求,我们需要补充两类标签,一类是模糊标签;一类是抽象标签。模糊标签是因为数据缺失而需要通过算法来补全的标签,例如用户的性别属性,如果基础数据里面没有这个属性,我们就需要通过机器学习算法去预测这个值,而且这个值往往是一个概率。抽象标签是针对一类高阶的属性,例如用户购买力,用户购物模式,用户口味偏好等,去建立标签模型。在灯塔平台中,我们建立了一套相对比较完整的深度标签体系。
图3是分别用TAN和NBC算法进行标签计算的效果:
行业知识建模技术
在互联网+结合行业大数据的过程中,行业知识的获取和利用是关键的一环。只有将行业知识通过建模数据化,才能将行业知识和其他数据进行混合和关联处理。行业知识建模可以分为两个层次:第一个层次是行业字典,通过大规模爬虫,可以将行业信息转化为行业字典。目前,灯塔平台已经积累了超过三亿条行业字典,包括一亿条电商字典,五千万条视频字典;第二个层次是知识图谱,字典的缺点是信息之间缺乏关联性,我们通过构建知识图谱,去建立语义级的行业知识。
基于场景的智能推荐技术
推荐系统是非常成熟的大数据精准营销技术,目前已经在广告、电商、视频、阅读等领域得到了广泛的应用。但是,通常的推荐系统往往存在推荐效率不高,重复推荐,过度推荐等问题。在大数据的场景下,我们结合地理位置分析和场景识别技术,对推荐系统进行了优化。
大数据交互式可视化技术
数据可视化不仅仅是大数据分析结果的直观展现,更重要的是一种分析数据关联性的方法和手段。通过交互式数据可视化的方法,可以从不同的角度去分析数据,并直接得到结果。交互式可视化在技术上最大的难点在于针对大规模数据进行可视化操作的时候性能优化。例如基于地理的可视化数据分析,需要在不同的放大尺度下对数据进行实时的归并和关联性计算。图5是通过地理位置和人群信息模型进行交互式可视化,实现人口迁徙分析的案例。
中国电信大数据的探索与实践
通过在互联网+的大数据关键技术突破,灯塔大数据团队构建了面向互联网+的行业大数据平台。
在灯塔平台的基础之上,打造了一套完整的5+1+1大数据产品体系,即5个直客产品方向、1个流量入口、1个能力平台。中国电信面向行业垂直领域直接客户,结合灯塔平台的能力,开发5类细分产品并逐步商用,并且根据融合数据、整合深度标签、ID图谱、GIS、爬虫、行业字典等平台能力,面向行业和政府提供技术解决方案。
互联网+的提出与发展为作为基础设施的大数据带来了新的发展契机,是传统行业与互联网融合的一种有效的手段;运营商发展大数据应用已经成为一种趋势,然而数据处理的障碍使得寻求技术创新与转型成为必然;中国电信“灯塔”大数据行业应用平台力图打造大数据行业应用生态圈,加速产业升级和商业模式创新,提供零售研究、消费者研究、店铺选址、精准营销、泛义征信,背景调查等服务,通过技术创新和应用创新共同驱动,分析利用互联网中的大数据,使世界更加扁平化,同时也为自身转型走出了一条创新之路。