APP下载

挖掘大数据的发展潜力

2015-12-04胡春明陶海亮罗洪滨袁扬扬

互联网天地 2015年4期
关键词:结构化百度预测

胡春明,陶海亮,罗洪滨,袁扬扬

(1.北京航空航天大学计算机研究院 北京100191;

2.百度在线网络技术有限公司 北京100085;

3.亿玛科技有限公司 北京100024;

4.艾司隆软件技术咨询(上海)有限公司 上海200052)

大数据的理论及特征

胡春明:大数据在今天已经不是一个新鲜的词汇。不管以前是不是叫大数据,人们都是在用数据看世界。数据分析方法往往采用了统计学上的采样法。只要采样方法在一些情况下足够好,样本数据就能足够反应真实世界的特点。从得到的样本数据里面获得知识,采用的办法是基于统计的分布,或是假设检验等方法得到一些支持,通过支持获得预测。

大数据依赖的基础是大量被记录下来的数据。如买东西的记录、订房间的数据、摄像头等传感设备采集到的信息,甚至人本身就是一种传感设备。人们把看到的信息放在微博、微信上,让这些信息被刻画和传播,如果这些数据不是采样,而是全样记录,数据足够大,就得到了多源的大数据集。真实世界的“总体”我们无从制造,但在大数据时代,我们认为多源的大数据集合就代表了这个总体,这是大数据的“大”和原来的“小”之间是最根本的方面。处理问题还是要回到现实可操作的层面,所以同样对多元的大数据做预处理和重新采样,得到特定问题相关的采样。通过以前数据挖掘的技术和学习方法,可以在相关采样数据集里发挥作用,得到基于模型的预测。

这个过程中可能面临一系列问题。

第一个问题,如何找到多源大数据集来代表总体。在大数据中,我们觉得多源大数据集就代表了真实的世界,但是在实际采样的过程中,日志和数据可能有偏差。例如,许多人经常用对网民的调查来代表社会大众的态度,但是网民不一定能代表大众群体,还有一群人不上网。从这个角度来看,数据是不是真正接近全样本、数据本身会不会在采样中产生结构性的偏差,都是一个不容忽视的问题。

第二个问题,大数据大到我们处理不了,计算过程中就需要“把大数据变小”,这需要针对具体问题,在算法设计上更仔细地考虑。降维可能面临丢失重要维度的风险,如何降维是我们要考虑的问题。

第三个问题,如何从数据中寻找知识和进行预测。预测的方法比之前的数据挖掘更进一步,尽管对问题做了重采样,得到了一个相对小的数据,但是这个小数据相对于以前做分析的数据还是很大,因此,需要在新的统计理论、数学工具、计算理论、设计方法和大数据分布式计算机基础设施方面做一些工作,这就是今天为什么大数据得到学术界和产业界共同关注的原因。

目前普遍认为,大数据具有4“V”的特点,即Volume(大量)、Variety(多样)、Velocity(高速)、Value(价值)。通过进一步研究,我们认为,从对大数据进行计算的角度来看,大数据计算还存在三个特征,我们称为大数据计算的3“I”特征。

第一个“I”是Inexact(非精确),包括两个层面:第一个层面是今天做的很多计算本身并不需要那么精确,往往需要知道一个大的方向和态势;另一个层面是我们面临的环境没有办法做得那么精确,数据在不断变化,新的数据不断产生,没有办法得到稳定的视图。在满足应用需求的前提下,放松结果的精度,可能换取更快的处理速度、更小的计算开销。但在计算里坚持非精确的思路并不意味着随便去做,仍然需要对质量做最基本的保证。

第二个“I”是Incremental(增量性)。这个特征和大数据里的动态持续变化紧密相关。因为数据是持续变化的,可能新来的数据占到历史上所有数据积累的比例很小。如果能够把计算变得增量化,只针对新到来的、比较小的数据做计算,然后以可接受的计算代价,把计算的结果融合到已有的计算结果里,这在一定程度上能实现“将大数据变小”,增强我们进行大数据计算的能力。但增量不仅要求计算框架有特殊的支持,可能对算法本身也有一些要求,有一些问题是适合增量处理的,而有一些算法并不一定适合。从这个角度看,可能要运用一些新的思想和方法来设计支持增量的算法,同时,在大规模的分布式计算系统中支持增量计算的处理。

第三个“I”是Inductive(归纳性)。大数据是多源融合的数据,这些数据代表了现实世界,代表了统计学上所谓的“总体”。从这个角度看,如果能够把来自不同源的数据相互参照,不但可以弥补在所关心的维度上数据稀疏的问题,同时还可以通过多源数据的参照,在一定程度上控制因为非精确计算带来的误差,帮助控制解的质量。

这就是从大数据计算角度总结的一些内容。非精确性、增量性和多源数据之间的归纳性成为大数据设计系统和算法设计的重要参考。大数据本身是一个交叉学科,是应用驱动的垂直整合,也是理论算法、分布式系统、数据挖掘和机器学习方法等诸多方面的整合。从数据开放和标准化角度看,数据开放是构成大数据整个产业生态链的重要起点,开放数据有一些好的平台。开放数据、数据格式、数据语义的标准化将有助于我们建造一个更加丰富的大数据应用生态环境。

大数据的新应用

陶海亮:百度是中国重要的互联网公司,其本身是一个大数据公司,因为做搜索引擎业务,因此必须要掌握大数据技术。通过与很多行业、企业和政府的接触,我们发现大数据对一些行业的应用提出了很多挑战,主要有三个方面:一是最底层数据存储和计算的规模面临挑战;二是在大部分的传统企业中,在数据的管理和挖掘技术方面比较缺乏;三是在大部分的传统企业中,机器学习和人工智能技术并不被IT 人员所掌握。

百度在4月发布了百度大数据引擎战略。这个战略是把百度多年积累的、在大数据应用方面的技术能力开放出来,让各行各业都可以使用。大数据引擎包括了三个部分,最底层是开放云,可以理解为云计算,但是百度的云规模更大一些,因为有一些独有的技术,包括低能耗的数据中心、分布式架构和智能化运维。开放云上层有数据工厂。数据工厂是新一代数据库管理技术和挖掘方法。数据工厂上层有一个最核心的百度技术,叫作“百度大脑”。百度大脑已经达到了非常先进的程度,把深度学习的技术、超大规模学习能力和平台都开放了出来。

百度管理的数据超过了EB 级别。每天新增的数据是PB 级别,整体服务器超过了几十万台,单集群达到上万台。数据工厂提供了超大规模的数据查询能力,单次查询可以快速扫描上百个TB数据。数据库在不同的应用场景下对性能的要求不一样。在大查询、低并发的情况下强调数据的扫描速度,在高并发、小查询的情况下强调并行服务能力,可以达到十万的QPS 指标。

百度利用大数据的技术和能力开发了新的应用产品。在搜索和广告的业务外,还做了新的尝试。主要有以下几个产品。

(1)旅游预测

旅游预测有两个部分:一是包括景点的预测,这是与旅游局和各地的旅游管理机构合作,基于他们的数据和百度的数据,可以对未来一周每一个旅游景点的人流情况进行预测;二是还可以基于旅游数据对城市旅游的出发地和目的地进行预测,这个预测结果对于旅行社和管理部门都很有价值。

(2)疾病预测

通过中国疾病控制中心提供的数据,将这些数据与百度的数据相结合,可以对全国330个地级市、2 800个县区的多种疾病发病态势进行预测。甚至在北、上、广可以做到商圈级别,如在王府井某一种级别发病的态势可以给出预测。

(3)指标预测

百度每年有50 万的活跃企业客户,遍布了27个行业和所有省份。百度每个季度、每个月都会发布一些相关的新的统计数据。百度与中科院进行合作,通过中科院和百度数据的统计分析,可以预测中国的经济走势,与统计局相关数据的指数相比较,得出宏观数据的指标误差很低,且时间比统计局提前了3个月。这对于很多做经济研究的学者来说会非常有帮助。另外,目前中国统计中小工业企业的数据指标较少。百度基于数据推出了中小企业的指标,填补了国内中小企业景气分析的空白,并做到了可以区分行业和不同的地域。

(4)百度司南

百度司南是基于大数据的商业决策平台,能够对市场格局进行定量研究,对消费者动态进行洞察,还可以直观地给出媒体投放的策略,为广告主/代理商的广告投放决策提供了非常有价值的量化数据。

精准的大数据营销平台

罗洪滨:互联网广告的投放过程中需要不断地搜集产生的数据,同时,也要积累数据的分析。做产品的过程中,经常要做市场调研,要了解趋势、竞争对手以及规模。市场调研是为了明确营销者的位置以及未来走向。

大数据营销也存在一些问题。在做营销推广的过程中,有很多产品可以选择,包括经常用的SEM、网盟、P2P 社区广告和视频广告等。如何选择这些投放产品,哪些用户是适合发展的用户,这是存在的一个问题。随着目前互联网终端的增多,如何在多个终端上有效地展现投放的广告,同时能够在不同的地方对这些用户进行统一识别,能够把零散的行为汇集起来,这也是存在的一个问题。

对于以上的问题,在应用中可以使用大数据营销平台。大数据通过全面、大量的实时数据支撑,使得做市场分析时有更及时、更准确的数据依据;通过各种渠道的分析,每一次的广告展现得到最终效果时,有全路径的分析;每个渠道能够进行各种指标的回顾分析。

首先,大数据营销平台采集用户的数据信息,对用户的所有行为特征基本都能够做到实时跟踪。另外,随着移动产品的增加,目前能够真正实现跨平台、跨终端对用户和数据进行采集。不但可以在搜索社区展示类广告进行投放,同时也能够实现从移动终端到PC 之间的直接投放。

大数据营销平台可以帮助营销者做决策,通过数据支持进行用户行为分析。广告主可以通过数据分析结果得知其网站的用户经常做什么,对什么感兴趣,哪一种产品最热销,能够了解这些网站用户的行为特点以及兴趣特点。

大数据营销平台每天能够监控到数十亿媒体广告的曝光,从中可以掌握每个媒体目前的流量和人群覆盖、价格趋势变化以及每一个定价的参与者和广告投放。通过和搜索引擎公司的合作,能够知道用户最近在搜索什么、关注什么,从而掌握用户的即时兴趣。同时,也能得知用户在站内的搜索内容,因此能够给用户推送其最感兴趣的内容。

目前,大数据的精准广告投放一般分为三类,包括搜索广告、社交广告、精准展示广告。精准展示广告主要是在行业内,数据使用性比较强,转化率相对比较高,规模非常大。搜索广告主要是根据用户的搜索意见进行定位,规模也比较大,转化率和点击率相对来说比较好,用户的注册信息比较明确。社交广告更加丰富一些,能够对目前的变化趋势做更好的分析。随着精准技术得到大家的认可,互联网领域会有更多人使用精准广告技术,会有更多的资源。这个发展是一个蓝海,目前表面上只有110 亿的投放,未来还会呈现至少翻倍的增长速度。另外,点击率比传统广告高很多,效果转化率也非常高。因为做了人为的精准,每天产生的效果数已经超过了一般的社交和传统广告的展现效果。

目前,亿玛大数据营销平台覆盖的人群超过6 亿,有效的行为数据超过2 亿,日增购物定单超过百万,每天能够监控到的搜索行为超过50 万。这些数据可以支持客户的数据分析,并且能支持精准人群的定位,同时能够支持客户和用户对各种渠道的分析。另外,数据可以实现跨平台、跨终端的投放。跨平台能够实现目前所有的开放流量投放数据,包括媒体流量、搜索平台、社交平台等。跨终端能够做手机和相应的平板电脑、PC 等各种设备的投放。目前,优化的手段很简单,通过广告的投放进行优化。基于不同的人群,在投放过程中实时进行数据分析,根据不同指标的异常进行调整,找到调整的最关键的内容,从而实现广告投放的优化。

大数据的文本分析

袁扬扬:营销代理商给企业制定最相关的营销推广计划,并且取得营销目标对象群体的回应。营销计划的分析内容一般包括以下几个方面:首先是识别,即帮助客户对消费者进行全面的了解,从而挖掘潜在的商业机会;其次,对消费群体进行细分,将消费者分成不同的群体,以便实施最有效、最相关的营销沟通;再次是预测,建立各种类型的预测模型,目的是为了预测最能够呈现出企业所需要的消费行为的人群;最后是测量,运用高端的测量设计与分析,帮助企业评估基于数据分析基础上的营销策略与手段的绩效。

大数据时代的确可以给商家带来无限商机,然而现实是企业拥有大量的消费者数据,其中有用的信息却很少。

在过去,因为信息渠道的缺乏,消费者对企业或品牌信息的了解也相当有限。因此,传统的营销方式可以奏效。今天,消费者手里拥有大量信息,他们可以从各个渠道获得企业或品牌的信息,也拥有了前所未有的自主权。因此,企业今天就不能再用传统营销方式与消费者进行沟通,消费者更希望的是一对一的个性化沟通方式。企业已经越来越意识到精准数据分析的重要性,并正在尝试用数据分析改变与消费者互动的方式,将这种互动方式慢慢转化成更加接近于一对一的方式。

消费者数据分为结构化数据和非结构化数据。结构化数据是可以量化的数据,包括问卷调查中的封闭式回答、交易记录、网上评分等数据。非结构化数据包括电话、邮件、在线聊天以及问卷调查开放式的回答。这些信息可以由企业内部直接从消费者手里获取。另外,还有博客和社交媒体等网民信息,这些信息是外部公开的。今天消费者在与品牌的每一个接触点都留下了足迹,企业也试图从各个媒体渠道获取消费者信息。但是,获取信息仅是第一步,如果要实现对消费者全面的认知,必须要有效整合这些多媒体数据,深度挖掘,并且进行精准的分析和提炼,这样企业才能够全面地认识消费者,全面地了解消费者的行为与爱好,从而进行一对一的定制服务。

据IDT 一份报告的分析,80%以上的商业信息以文本形式存在,20%的信息是结构化的数据。结构化的数据在未来几年将以22%的年复合增长速度增长,而非结构化数据则以62%的速度增长。一般的企业对结构化的数据可以进行分析,而对于80%的非结构化数据,因为分析难度很大,并且需要花费大量人工成本,如果没有合适的工具,企业的做法就是搁置一边,或者采用关键词搜索的方法进行分析,但搜索分析会有很大的局限性。

因此,我们建议客户使用文本分析方法(Text Analytics)将数据结构化。文本分析是用一系列语言学和统计学的方法将文本结构化。首先提取观点和模式,识别句子的意义和关系;其次辨析情绪是正面还是负面;然后将文本转化为可量化的结构化数据;最后把非结构化的数据和结构化的数据整合起来,形成对消费者的全面认识。

文本分析的方法有两个组成部分。第一个部分是利用自然语言处理来解析语意和语境,把一句话分成几个组成部分,对每一个组成部分贴上标签;然后分析这几个部分之间的关系;最后做语言学关系的分析。第二个部分是情绪分析,每一个词被赋予了正到负的情绪分值,分别代表了正面、中立、负面态度;对于修正词还要调整情绪分值,因为每一个行业有其特殊性,所以对每个客户需要调整默认值并且设立例外的原则;最后给每一个句子赋予一个分值。

总之,文本分析就是运用尖端的文本分析工具来量化非结构性数据,并与结构性数据相结合,进行深度分析与建立预测模型,以实现对消费者的全方位认知。

猜你喜欢

结构化百度预测
无可预测
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
选修2—2期中考试预测卷(A卷)
改进的非结构化对等网络动态搜索算法
深度学习的单元结构化教学实践与思考
结构化面试方法在研究生复试中的应用
Robust adaptive UKF based on SVR for inertial based integrated navigation
左顾右盼 瞻前顾后 融会贯通——基于数学结构化的深度学习
百度年度热搜榜