APP下载

大数据发展的短板
——数据不够“大”

2017-01-22采访王彦文受访陈运文

张江科技评论 2017年5期
关键词:领域计算机人工智能

■ 采访/王彦文 受访/陈运文

大数据领域的技术已经非常成熟了,但应用还处在初级探索阶段。

随着社交网络、电子商务和移动互联网的发展,人类每时每刻都有大量的数据产生:我们浏览过的网页、访问过的店铺、发过的朋友圈等,可以说,“你轻轻走过,到处都留下了你的痕迹”。在公共领域,交通系统每天产生大量的视频数据,医院有大量的医疗信息……所有这些就构成了“大数据”。大数据之大,不仅指数据量,更在于其价值。

大数据行业有巨大的需求

2017年中国大数据发展调查报告显示,2016年,中国大数据的市场规模为168亿元,增速达到45%,预计2017—2020年,大数据市场的增速会保持在30%以上。大数据产业的飞速发展,带动了一批提供大数据技术服务的高科技创业公司的出现。位于上海张江高科技园区浦东软件园的达观数据就是这样一家为企业提供大数据服务的公司。

全球知名咨询公司麦肯锡称:今天的数据,已经渗透到当今每个行业和业务功能区域,成为一个重要的生产要素。人们对大量数据的挖掘和利用,预示着新的生产力增长和消费者剩余影响的到来。

达观数据致力于数据的挖掘和处理,公司运用人工智能中的自然语言处理技术和应用系统为企业提供个性化推荐和搜索系统。与其说达观数据是一家大数据公司,毋宁说是一家人工智能公司,大数据是公司的处理对象,而处理方法则是人工智能。达观数据的CEO陈运文先生认为,针对大量数据的处理工作,例如大量的文字性工作,计算机不仅可以做,而且可以比人做得更好,这是大数据在人工智能行业落地的可能。

陈运文发现,尽管大数据的概念已经非常普及,大家也意识到了大数据的重要性,但是,如何经营数据,如何利用数据为自己服务,很多人却并不见得了解。他认为,大数据行业有着巨大的需求。中国有很多大中型企业,企业里面大量的数据、资料和内容性信息散落于计算机的各个硬盘或者在柜子里堆积如山,很多有意义的数据就这样淹没其中得不到利用。利用计算机对这些文档材料进行自动分类、归档,提取出有用信息,就能帮助企业实现基于大数据的精准营销,降低企业成本、提高经济效益。陈运文说:“帮助传统企业适应科技化、适应时代的需要,是一件非常有意义的事。例如,像华为这样的大公司,做好数据管理是非常重要的,华为采用了达观数据提供的知识管理和个性化推荐服务,将文本挖掘技术应用到企业内部,可以实现数据的自动管理和分析。”

对于新媒体行业来说,尤其是一些粉丝数量较大的媒体,媒体的粉丝都是什么样的群体,有什么样的偏好,对内容的反馈是什么,这些都很难单靠人工来分析。利用计算机对大数据进行分析就可以对粉丝进行“画像”,从而分析每一个用户的兴趣爱好,做到个性化推荐。

陈运文调侃自己的大数据处理工作就像“来料加工”,“其实这个世界不缺数据,缺的是对数据精加工的能力,原始的数据如果不做处理,价值很小。”他说,“我们做的事情是对原始数据进行处理,使之成为有意义的数据。”如何让计算机更好地管理这些文本,是一件非常重要的事情。

大数据应用处于初级摸索阶段

“大数据的概念很火,但真正落地的很少。”提到大数据在现阶段的发展情况,陈运文这样说。大数据的概念曾经非常火热,《纽约时报》曾经发表过一篇题为《大数据时代》的文章,预言大数据时代的到来,文章说大数据将会改变人类的生活。然而,这么多年过去,大数据产业并没有像预想中的那样普及。对此,陈运文评价说:“人工智能=数据+算法,算法的进步很快,而数据却没有同步跟上。大数据领域的技术已经非常成熟了,但应用还处在初级探索阶段。”大数据的应用分为几个阶段:数据采集、数据挖掘和数据应用。数据的采集在国内才刚刚开始,还有大量的有用数据没有得到关注。比如交通数据,在上海这样的大城市交通数据得到了越来越多的重视,然而,很多小城市没有采集的意识。大数据技术在互联网行业的应用较多,比如百度、阿里巴巴拥有大量的数据,这些公司也在将这些数据转化为生产力。但是,国内大量的传统企业,对数据的商业应用敏感度低,没有意识到看似烦冗的数据经过处理后会产生巨大的价值。经过媒体几年来的启蒙教育,国内传统企业也逐渐开始重视数据的采集与整理,意识到大数据、人工智能的重要性。但是,很多企业对于如何使自己的企业和人工智能相融合,让大数据和人工智能为企业服务并没有清晰的概念。陈运文表示,这些企业需要像达观数据这样的公司使大数据和人工智能在这些企业落地。因此,数据的采集、处理领域未来发展前景广阔,市场巨大。

“在很多行业中,我们缺乏有质量的数据,很多行业的数据信息还停留在纸面上,没有数字化或者说文档没有做到很好的标注,无法让计算机进行高效处理。近几年,很多企业开始重视数据的采集和整理,这是一个很好的趋势,也将在很大程度上促进大数据的发展。”陈运文说。

大数据的未来发展前景广阔

对于大数据领域的发展来说,只有数据足够多,行业才能发挥应有的作用。比如,AlphaGo学习了30万盘棋谱,在这个基础上,才打败了人类。陈运文说:“中国有句古话:熟读唐诗三百首,不会作诗也会吟。要写出优美的诗篇,我们需要读很多的唐诗,如果让计算机阅读成千上万篇文章,它也可以从中总结规律。计算机拥有强大的运算和存储能力,可以比人做得更好。”陈运文介绍说,达观数据有个专利,当计算机读完一篇文章后,可以判断出文章中哪些字是人名。对于人类来说,这是一件非常简单的事,而计算机完成这个判断则需要非常复杂的算法。通过大量的文本阅读和训练后,计算机就能像人脑一样运算。今天,数据挖掘在很多行业中的应用还处在一个非常早期的状态。未来,房地产、汽车、零售、法律等行业都可以引入人工智能。

例如,司法领域是一个文本使用特别集中的行业,律师需要处理大量的文本资料。中国平均每18天诞生一部法律,这也就要求律师不断学习、记忆,随时掌握新的法律知识。人类并不善于大量的记忆,但这是计算机的强项。Ross Intelligence就是一款用于法律行业的人工智能APP,2016年法律事务所BakerHostetler宣布雇佣Ross Intelligence来处理破产诉讼实务。也许10年以后,人工智能辅助人类来处理案件会变得非常普遍。

医疗领域也是一个文本密集的行业。IBM公司的Watson医疗可以在短时间内记忆大量的信息,它通读了200多份医学期刊,200余种教材以及大量的病例,可以为疾病确诊以及药物选择提供建议。

大数据领域创业的最好时机

美国政府认为大数据是“未来的新石油”,将给未来的科技与经济发展带来深远影响。大数据技术的飞速发展离不开一系列硬件和软件设施的支持。云计算、云存储等技术使大规模数据的存储与运算成为可能,这也进一步促进了大数据领域的创业。陈运文介绍说,之前,互联网企业的软硬件维护成本非常高,创业企业需要投入大量的资金到软件和硬件维护上,而云技术、云存储技术可以减轻大数据领域创业者的资金压力,大大降低创业的门槛。现在,1T字节的数据一年的存储成本只需要几百元。之前,由于数据的存储成本较高,一些电商网站只记载交易数据,交易之前的浏览数据是不保存的。现在,随着存储成本的降低,很多这样的数据被保留了下来,这些数据对商品的精准营销非常重要。

达观数据的发展很快,上线3个月后,公司已经与15家企业展开合作;成立1年之际,就获得了国内多家知名投资机构的千万级天使投资。2017年4月,达观数据宣布完成了5 000万元A轮融资。提到达观数据为什么会有这么快的发展,陈运文表示,大数据领域的创业,人才和技术是最重要的。一定要找到合适的人才,如果找不到,陈运文就选择有潜力的员工用心培养。达观数据的新员工一入职,陈运文都会要求他们参加算法竞赛,在比赛中打磨算法能力,增强自信同时养成思考的习惯。

陈运文说:“中国现在有良好的创业氛围,机会也很多,只要找到创新的大数据商业模式,创业公司发展前景非常广阔。在一个领域要有所成就,其实只需要做好两件事,一件是技术,一件是服务。我国的很多企业缺少的不是技术,而是针对每个用户定制的、满足需求的服务。”

猜你喜欢

领域计算机人工智能
电子战领域的争锋
将现代科技应用于Hi-Fi领域 Perlisten S7tse
计算机操作系统
2020 IT领域大事记
基于计算机自然语言处理的机器翻译技术应用与简介
计算机多媒体技术应用初探
领域·对峙
2019:人工智能
人工智能与就业
信息系统审计中计算机审计的应用