星光数据:文本大数据的价值挖掘
2017-02-27王盈
王盈
我们如今生活在一个“大数据时代”,政府、企业、个人每天都在制造海量数据,文本大数据应运而生,越来越多的文本技术公司开始投身到这片蓝海之中,挖掘藏在数据中的价值。北京智慧星光信息技术有限公司董事长李青龙认为,在大数据分析中,这类数据虽然至关重要,但如何大规模对这些数据进行最有效地分析还较为模糊,目前我国绝大多数的数据分析公司尚不具备对其分析的能力。
第一时间挖掘全量数据是根本
当下“数据”的概念也发生了巨大变化。过去似乎只有电子表单上那些数值型信息,才可以被称为“数据”,但现在的“数据”可以是网络上任何的非结构化信息。
对此,李青龙进行了详细介绍:“数据分为两类:一类是结构化数据,是可计算、可统计、可分析的数据,统计学、运筹学等学科都是在解决结构化数据的问题。经过多年的发展,业界已经做了大量的积累,对于数据的获取、存储、处理、检索等,已经具备了相当多的技术储备,难以再有大的突破;另一类是非结构化数据,即以文本为核心的文本、图片、视频等,表现的特征是碎片式,不可统计、不可计算、不可分析,这些特点赋予了文本数据巨大的价值。可以理解为,对文本等非结构化数据的分析比数值型这类结构化数据的分析更为重要。”
对于非结构化的大数据,特别是文本大数据,业界正在持续加大投入。
同时,随着硬件设备的提升,使得硬件设备处理非结构化数据量远远高于结构化数据量,两者比例约为9:1。由此也可看出,文本等非结构化数据中蕴含着非常大的价值。
智慧星光的定位是全球领先的文本大数据服务商,即立足于文本的数据化提供各类服务。“我们主要的服务内容分为两个:一是实现信息对称。要实现信息对称,首先要在第一时间获取数据,并且是全量的数据,才是数据挖掘的根本。再把文本等非结构化数据,通过数据化处理转化成结构化数据,只有成为可统计、可计算、可分析的数据,才能实现信息对称;二是挖掘文本数据的价值。通过各种创新的分析工具和手段,将其整合为有价值的分析结果。”李青龙如是说。
在实际生活中,文本信息多是用于查看,结构化或言之数据化处理的工作多是由大中型企业交给市场调查公司、公关公司等机构完成,由其制作调查问卷,然后对它赋予数据,最后根据数据统计出结果,形成分析报告。此类公司提供的一般都是数据列表,是较浅层次的统计结果,因此价值比较小。此外,文本数据虽潜藏着巨大的价值,但囿于当前的计算方法和硬件设备,其价值还未得到充分地发掘。可以说,目前无论国际还是国内,文本数据的应用都才刚刚起步。
反向分词:极致、极简、创新
文本处理尤其是中文文本处理的核心在于:一是建索引进行搜索;二是分词,提高准确度。李青龙表示,“我们未来会向信息对称方向聚焦。而我们的日常生活和互联网之间隔着一堵无形的墙,造成了信息的不对称。通常而言,我们每天能获得信息的渠道包括各种搜索、各类网站和社交媒体。如果我就想关注某类事件,关于它的所有信息被淹没在互联网的汪洋大海里。”
为此,李青龙认为:“我们需要建立一种机制,用工具和方法打通信息通道,在打通的过程中,传统文本搜索常用的索引和分词使其效率大大降低,必须创新方法。”
“只要有索引和分词,大数据在整个体系中就施展不开。”李青龙举例说:“百度大数据的价值并未发挥,原因就在于百度的价值仍局限于是搜索入口,大家都在上面做广告,而为它的大数据价值买单的少之又少。另外,百度对非结构化数据的结构化处理程度仍处于浅层次,目前只对新闻进行了结构化处理。而百度网页没有进行深度的结构化处理,因为网页中的数据量太大了,无法实现深度结构化。这些因素造成百度文本大数据的价值尚未真正发挥。”
智慧星光的理念是“极致、极简、创新”。李青龙解释道,“极致就是只要有相关的内容马上就能精准获得,这要求对中间环节进行简化处理,于是,我们大胆提出去分词。通过长期积累,我们建立了一个以‘效率优先,精准优化为原则的反向分词词库。”
传统的分词系统虽然也可以解决这个问题,但需要把文章全文全部分词,1000字的文章能够分出1000~2000个词来,这就意味着要分词后才能对应用户的关键词。“但通常我们在关注一篇文章时,只关注几个词,因此对那几个词使用反向词库就够了。反向词库比传统分词的效率提高逾1000倍,这样的效率意味着我们能够实现零时延,这就解决了系统越大越慢的问题,系统再大也不会慢。”李青龙如是说。
舆情监测:赢在数据质量
随着“互联网+”时代的到来,互联网正迅速融入于各行各业。对于拥有全球人数最多网民的中国,更广泛的网络参与也带来更多的互联网数据和更全面的舆情内容。面对互联网上的海量信息,如何能做到准确获取、实时监控、合理分析、综合研判、定向导控,是摆在舆情工作者面前的重要问题。
李青龙表示,舆情是文本大数据典型的应用,其特征之一是,客户可以清楚地告知需求。而传统索引的方式其实的应用是不知道客户的需求,因此需要建全词量的索引,但是内容非常复杂。而当客户可以清楚地告知需求,系统就可以把计算前置化,因此能输出更好的结果。
李青龙把舆情公司分为三代:第一代为系统集成和软件开发公司,第二代是提供传统SaaS服务的公司,第三代是文本大数据应用的创新型公司。系統集成公司就是在系统集中加入软件开发,根据客户进行项目定制开发,形成舆情系统,这种舆情的最大缺点就是数据质量差。
2009年,SaaS在全球兴起,一些公司很好的实现了转型,有些公司转型时却跑离了轨道,仍采用系统集成和软件开发的方法,未能真正解决舆情问题。“当时我告诫团队做项目不要只图一时之快,要坚定把SaaS模式下的舆情监测系统做下去,在数据质量上超越别人。为此,我们投巨资建设了一个高标准的智能化信息采集和处理平台,为客户大大降低了成本,同时在信息的及时性、全面性、精确性方面满足客户的需求。目前,我们Saas平台服务1.5万多客户,付费用户超过2000个。”
社会对互联网舆情的关注程度也越来越高,与之相对应的处理方式也产生了相应的变化,从最初的不甚关注,到人工手动搜索处理、外包处理、系统处理,目前发展为专业技术服务团队的托管服务,舆情监测经历了阶梯式的发展。
对此,李青龙表示,“未来,智慧星光将把握发展机遇,进一步完善舆情监测系统,不断寻求创新突破。”
商业模式的突破是关键
任何行业发展都会有瓶颈期,大数据也不例外。李青龙直言,目前的文本大数据比较好的出路就是APP新闻推荐,其商业模式的突破在于它卖的不是信息服务费,而全是广告费,虽然面向的是C端,但付费的是B端。对此,李青龙指出,“文本数据应用需要思考如何实现商业模式的突破,这也是大数据发展的关键。”
大数据的作用和方向体现在两方面:
第一、监测。各种大数据工具、物联网都是在监测和发现问题,这是大数据的典型特点。
第二、预测。大数据有可能颠覆各个行业,但只是有可能,需要的周期可能很长。
“比如我们现在体检都要去现场排号,如果通过鞋子或体内的小机器人采集所有的健康数据,直接能看到自己的体检报告,这就可能取代传统的体检模式。”李青龙形象地举例说。
李青龙认为,目前大数据采集、处理、分析、应用等的标准化产品的最大价值包括两个层面:
一是效率提升。以往,要由人工提升效率,而大数据在一定意义上实现了人工智能化,这是大数据最大的价值。如以前需要几个人不间断地在各处做搜索、舆情监测等工作,现在通过大数据技术可能只需要半个人。用户打开手机客户端,重要的信息直接推送显示,节省了70~80%的人工工作,这就是效率的价值。
二是效果可查。对每天看的信息定性、定量的操作和分析。
据国际数据公司(IDC)在2011年的调查显示,今后十年,非结构化数据将占互联网总数据的90%,是一个尚未得到充分开发的“信息金矿”。
对此,李青龙畅言:“我们相信,在未来的大数据分析技术中,非结构化数据分析技术将逐渐取代传统的结构化数据分析技术,我们将通过海量的数据分析,来让企业应对更为复杂的商业模型,从而替企业提高市场洞察力并创造价值。”