“大数据”浪潮涌动中关村
2014-01-13马文良
马文良
数据是大数据时代的基础性资源,作为国内互联网产业的发源地和创新高地,中关村聚集着工业和信息化部、交通运输部、公安部等20多个部委信息中心,中国移动、中国电信及中国联通3大电信运营商,百度、京东、搜狐等国内大型互联网平台公司,清华、北航、中科院、微软研究院等国内外顶尖高校及科研院所,以及龙信数据、用友软件等百家大数据从业机构,具有高价值密度数据,拥有全国最大规模和最有价值的数据资产,成为中关村大数据产业发展得天独厚的优势。依托下一代互联网、移动互联网和新一代移动通信、卫星应用产业集群,中关村“大数据”精彩故事正在上演。
作为我国信息产业的策源地,中关村在全球率先布局大数据产业,打造完整产业链,不断完善产业链各环节,做大做强一批龙头企业,促进新一代信息技术产业创新链互动和融合发展,为催生新的经济增长点、保障国家信息安全、加快工业和信息化的深度融合做出重大贡献。
风起云涌,“大数据”的浪潮正席卷中关村这块创新高地……
神州数码:让城市智慧起来
让我们来看下大数据是如何应用于城市管理的。12月10日晚上,中央电视台《新闻联播》播发了一条智慧城市的新闻,《借助大数据,城市更“智慧”》,展示了张家港市建设市民服务中心,通过大数据技术的支撑,实现部门之间数据库信息的互联互通,实现城市的智慧管理。此平台的开发者就来自中关村——神州数码控股有限公司。
从联想集团分拆出来的神州数码公司,致力于整合全球信息产业资源,2010年提出了“智慧城市”战略,通过以云计算、移动互联、物联网为代表的信息技术手段进行融合创新,推进中国新型城市化进程。
神州数码负责人介绍,智慧城市,实际上就是围绕城市、城市的市民、经济组织、城市运营管理者等主体而产生的智慧化应用服务。智慧城市已经成为经济社会大转型升级中的有效抓手,智慧城市的建设要靠“城市公共信息服务平台”来进行系统支撑。
城市公共信息服务平台,就是立足城市,充分利用新一代信息技术,在解决当前各类问题的同时,能够构建一套融合创新的机制,保障城市的健康可持续发展。
为此,神州数码构建了一套独有的“城市虚拟映像”体系。通过这个“城市虚拟映像”,将针对每个主体的应用服务抽取出来,形成对现实世界的服务。如何构建“城市虚拟映像”呢?首先要抽取出城市的“主体”,比如市民是城市的一个重要主体,市民是一个自然人,围绕自然人的各种要素抽取,建立一个“数字人”的模型,并通过从现实世界获取的各项针对这个人的非结构化数据,数据清洗、关键数据抽取,形成一个人的数字映像关系,从而实现非结构化数据的重组。针对现实的各项城市公共服务,就是在城市虚拟映像中形成的。
这一架构的优势在于城市的虚拟映像是稳定的,而城市服务的需求是多样的,构建了这样一个稳定的城市虚拟映像,就可以随时根据需求,开发出不同目的、不同主体的公共信息服务应用。在城市虚拟映像中,实现了数据的交互融合,也就实现了城市管理过程中综合调度管理的基础。
在城市虚拟映像的架构体系下,神州数码完成了智慧城市公共信息服务平台的构建。目前公共信息服务平台2.0版包含了市民融合服务平台、企业融合服务平台和城市管理服务平台三个平台。目前,神州数码“智慧城市”战略布局在全国70多个城市展开,并与近20个城市签订了战略合作框架协议,已经成为中国市场领先的“中国智慧城市专家”。
用友:
用好“大数据”,提升产业升级
大数据这一“新式装备”,如何来提升传统产业、进行转型升级?只要你想得到、用得上,大数据的利用将随处可见。比如,大数据与用水产养殖,可通过分析大量传感器、环境、市场、客户数据,逐步实现水产养殖的自动控制,并进一步来指导市场营销和产业布局等。
中关村管理软件企业——用友软件公司负责人认为,对传统企业来讲,大数据的思想和技术对企业的管理提升具有更多的现实指导意义,大数据在传统企业的应用中体现更多的是催生出一些新的工作模式,商业模式和新型的企业文化。
目前,用友公司已经与很多传统企业合作,助推企业转型升级。例如,用友为某大型燃气公司搭建集成平台,解决了此企业子公司多、无法集中管理等多重问题,为企业建立了全新的、系统的一体化平台。再比如,为采集销售客户数据用于指导市场营销策略规划,将员工对产品的评论意见进行爬虫搜索、分类整理和分析,用来指导新一代产品设计;利用历史多年销售整体数据进行产品系列结构和配比模拟分析,结合客户购买行为统计分析产品的销售组合频率,来进行相应的产品捆绑组合促销策略指定。
此外,用友还为中国邮政储蓄建立体系先进、数据集中、监管完善的管理系统,所有数据在财务管理系统中生成全行的报表和一本账,搭建起全国大总账,帮助银行实现精细化、规范化、科学化管理的经营发展战略。
高德软件:
让交通尽在掌握
上下班、出行游玩……交通成为我们不得不面对的问题,尤其是北京、上海这样的特大城市。那么大数据是如何应用于交通的?让我们来看下中关村交通信息领军企业高德软件有限公司是如何做的。
如果你想开车出门,但却担心交通状况,怎么办?高德推出了一个系统,叫全平台的路况趋势预测查询,可以帮你预测路况,也可以帮你规划下更加合理的出行路线,以规避拥堵,而且系统会给出达到目的地的预计时间。而如果你已经出门了,却不知道前边路况怎样,高德的新应用“前方路况播报”可以告诉你,你可以根据情况及时更改路线或做其他打算,省去不少麻烦。
高德通过搜集的海量行业数据,为大数据技术提供了用武之地,这其中有来自出租车、物流车的行业浮动车数据,用户生成的众包数据,经汇总、处理后生成反映实时道路路况的交通信息。通过大数据挖掘,可以为公众的各种使用场景,提供预测性的、具有指导性的、个性化的交通信息服务。
为了更好地进行交通数据挖掘,分析个人出行的影响因素,比如特定道路的拥堵规律、交通水平,以及工作日或节假日影响、天气影响的拥堵水平波动等,高德更是先进地推出了“基于大数据的道路速度海量通数据拟合”(高德SpeedProfile),将每条道路的历史碎片速度信息记录、存储,通过进一步挖掘,为大数据技术实现的交通预测和路径规划提供了依据和积累。
高德利用大数据这枚利器,为公众个体提供了个性化的出行服务,以用户大数据为驱动,达到改善产品体验的目的。特别针对车主群体,通过对历史数据的分析,为每条道路的通行状态建模,分析出车主在不同时刻的行程真实耗时分布。其次,通过海量的最真实的统计,为出行提供决策分析;通过建立道路通行时间、路口等待时间数据库,为导航规划提供更有价值的参考,为用户规划最高快捷的道路,利用海量轨迹数据,针对重要居民区和重要办公区、商圈的公众通勤导航数据,推出了车主最常走的“黄金路线”,体现了根据驾车人经验的、大数据实现的路线推荐的真实价值。
高德作为交通信息领军企业,在采集和融合行业数据方面,具有深厚的服务和运营经验。目前,高德提供的交通信息服务覆盖城市超过50个,访问用户超过1亿,日访问用户量80万,日使用时长21.8分钟,在服务内容和用户量都达到一定规模和社会影响力;截至目前,累积公众用户量超过一亿,5月覆盖道路里程1.47亿公里,为高德的城市交通路况大数据分析奠定了数据基础。
云基地:
用“大数据”保障公共安全
3秒锁定嫌犯,这听起来不可思议。但大数据的应用于公共安全领域,让这成为可能。
乘坐同一班列车,住同一酒店的两个人可能是同伙,刑侦人员将不同线索拼凑起来排查疑犯,可是来自于多源数据的处理在传统架构上,需要数小时甚至整日。在北京亦庄云基地建立的天云大数据平台,将这一操作缩短至3秒,同时描述出疑犯的交往关系。公安人员可以基于计算出的线索流畅的思考。
在公安日常工作中,对于人口、违法犯罪、出入境、酒店网吧信息、车辆驾驶员、在逃人员、被盗抢车辆等信息有着大量的查询需求,尤其是实战中,各地各部门迫切要求实现跨地区、跨部门的信息快速查询,需要获得及时、全面、准确的信息支持,进而实现统计分析和关联综合利用。
如今,警务信息化引领公安整体工作和队伍建设正步入建设阶段,公安“大情报系统”建设与应用可以将警察管理和警察行动建立在动态的收集、分析、测绘犯罪信息的基础上,实现预防和打击犯罪的目的,其中精准的情报是基础、有效的战术是手段、警力及相关资源是保障。
新影数讯:
预测电影票房的“法宝”
大数据可以预测交通路况,同样可以预测电影票房。新影数讯iFilm+利用社交网络和数据挖掘预测票房,据称准确率可达85%。
2012年下半年电影《1942》上映前夕,在外界对这部电影一片赞誉和看好,纷纷预测票房将突破7亿元时,新影数讯创始人刘晗却在外出休假前发布了一条微博,断言《1942》的票房不会超过4亿元。电影的制片方甚至前来质询:“你是哪个竞争对手派来‘黑我们的?”
电影上映后,刘晗的预测却得到了印证。《1942》的票房最终收于3.6亿元左右,和自己团队的预测结果几乎相差无几,仅仅达到了制片方目标和业界预测值的一半多一点。
预测结果,究竟从何而来?他首先确定出影响票房的几个变量,如演员、档期、上映时间、首映地,接着就要推算出公式中的定量,他的做法是从1990年以来上映的电影中抽样出四五百部,从统计年鉴中查到数据,然后让计算机逆向推导出定量,从而确定公式。预测时再把社交网络中反映出的变量填入公式,进行测算。
新影数讯每天处理上亿条社交网站上网友对电影的评价信息、娱乐新闻和明星八卦等,每个季度都要追加新的服务器和硬盘以应对暴增的数据处理量,严格说来,他们挣的是数据的钱。
不仅如此,新影数讯的另一个业务更前卫——为挑选演员甚至导演给出“数字上的建议”。根据历史参数和社交网络上的数据分析来给出判断。“很多导演挑选演员是根据经验,而你只要告诉我要找什么类型的角色,系统就会根据演员的外形和之前对类似角色的演绎效果给出匹配。”
如今,新影数讯已经和十几家影视公司合作,为万达娱乐、华策影视、小马奔腾、光线传媒等公司做营销策略咨询,更有香港、好莱坞的电影公司上门找他们做数据测算,公司也获得了海银资本的投资,成为海淀区中关村雏鹰人才基地的一员。
拓尔思:让搜索更容易
搜索,大家并不陌生,中关村企业百度公司做搜索引擎可谓龙头老大。而这里要说的是另一家企业,北京拓尔思信息技术股份有限公司。
拓尔思凭借非结构化数据管理方面和海量信息处理方面的突出优势,推出了平台+行业解决方案+服务的综合产品线,把海量非结构化信息处理技术和Hadoop架构进行有效结合集成,结合企业在大数据采集、管理、分析挖掘、可视化方面的具体需求,针对企业数据、机器数据、社会化数据,以TRS海贝大数据管理系统为平台支撑,推出了TRS机器数据挖掘引擎、TRS社会媒体分析云服务和TRS大数据一体机等相关产品和全面的解决方案,满足政府和企业在大数据时代对数据分析、管理的新需求。
TRS海贝大数据管理系统是拓尔思大数据产品系列的核心产品之一,兼容Hadoop标准,融合搜索引擎技术,可实现对海量结构化和非结构化数据的搜索、分析和挖掘,发挥平台性的支撑作用。
TRS机器数据挖掘引擎是面向物联网、电子商务、医疗、电信、金融等领域,为了满足大数据环境下的机器数据存储、管理、检索、分析、可视化等应用需求,推出的日志挖掘和用户行为分析系统,可广泛应用于IT运维、安全审计和用户行为分析等方面。
TRS社会媒体分析云服务平台是建立在TRS数据中心基础上的大型在线服务平台。可面向政府、企事业单位和个人,以在线云服务的方式提供信息监测、统计分析、关系挖掘、传播效果评估等一系列服务,范围涵盖网络媒体、论坛博客、微博SNS等全媒体,囊括了事前预警、事中分析、事后处理,为信息的全面分析构建了完整的生态链条。此平台在大数据的智能挖掘、热点分析方面具有业内领先的技术优势,从复杂的社会关系中挖掘出有用的信息,并通过即买即用的在线方式为客户提供必要而有效的应用。
拓尔思—华为信息检索一体机是经深度优化和技术融合的高性能检索服务器,支持自然语言及智能扩展检索,提供结构化、半结构化和非结构化数据的联合检索。一体机设计了高可靠的体系架构,兼容国际主流技术标准,接口开放,支持PB乃至EB级大数据的精确搜索,能够满足用户的高并发访问,可为媒体、金融、政府、专利等行业或领域的企业级检索提供高效的计算和支撑环境。
金电联行:
服务金融创新
有媒体报道说,以数据分析帮助供应链中的小企业拿到银行的信用贷款,金电联行不小心撬动了中国的中小企业信贷革命。
中关村企业金电联行(北京)信息技术有限公司,做的将大数据应用于金融创新,基于大数据与云计算技术创建了“客观信用评价体系”,技术载体为“数据挖掘机器人信用信息云服务平台”。其金融创新业务集中体现在“大数据信用”。
“客观信用评价体系”,通过植入云端机器人对被评主体网状与线性的海量、高速、多样、易变的客观信息,进行全自动、全天候的挖掘、分析与评价,提供非主观的全计算性信用结果,与实时的跟踪评价,从而实现了采集信息、运用数据、过程分析、评价结果和风险预警的客观性、智能性和高效性。评估后,会得出各个模块的子因素评价结果,形成针对中小企业的信用分析报告。
“数据挖掘机器人信用信息云服务平台”,数据采集模块由“数据挖掘机器人”完成,数据分析模块由“客观信用评估体系”完成,并可以实现数据实时更新以完成追踪监管。云服务平台的输出端有多种形式的展示,满足融资者、银行等金融机构和政府部门的需求。整个评估过程实施全数据导入控制,实现了以数据作为贷前筛选、贷中审核、贷后监管的信贷全流程管理的唯一依据。
通过“客观信用评估体系”对企业信用做出分级和评价,可供银行等金融机构作为授信的依据,使企业得到无抵质押、无担保的信用贷款。此产品主要针对核心企业上下游供应商融资,全面覆盖采购、生产和销售阶段的全产业链融资,降低存货和应收帐款对资金的占用。由于公司高效运行的技术体系支撑,此产品效率很高,贷款申请周期短(10-45天),申请成功率较高。迄今金电联行已经为600多家中小企业提供了总规模近30亿元的非抵质押信用融资服务,其中单笔最高信用额度达6800万,未发生过一笔不良贷款。
金电联行负责人表示,大数据信用的核心是数据,数据的开放尤为重要。据介绍,在金融服务领域,金电联行正在为银行等金融机构提供创新性的信用解决方案,尤其是贷前批量企业筛查,贷后风险量化监管,以及嵌入式的服务系统,创造出银行信贷管理新模式。