大数据带来时代大变革
——访国防科技大学教授贾焰
2017-06-12
□ 本刊记者 邢 华
大数据带来时代大变革
——访国防科技大学教授贾焰
□ 本刊记者 邢 华
记者:贾教授,您好!人类社会已经进入大数据时代,可以说,大数据无处不在。那么,什么样的数据才能称之为大数据?
贾焰:大数据是指在一定时间内很难依靠已有的数据处理技术进行采集、管理和分析的总的数据集合。简单讲,就是在一定时间内,我们通过已有的技术不能处理的数据,就叫大数据。这个定义其实是很难去把握或者界定。
但是,大数据具有以下五个特点:一是规模巨大;二是形式多样,包括文本、视频、音频、图片、文字等数字以及它们的变化组合;三是动态产生的,比如高速公路摄像头捕捉的动态信息;四是不确定的,也可能是不可信的;五是有价值的。所以,判定数据是不是大数据,拿这五个特点来套一下,如果全部能够套上,那么它就是大数据。比如微信、微博、论坛等等,都是大数据。
界定什么是大数据以后,最重要的是对大数据进行分析、挖掘,从而揭示出隐藏在数据集合中的规律,发现出有价值的知识和信息。所以,我们谈论大数据,一定离不开大数据分析。
记者:通过大数据定义的界定,可以判定大数据与我们的生活息息相关。您能结合实际说明一下大数据分析对人类生产生活带来哪些影响吗?
贾焰:我们都从淘宝买过东西,也知道那里假货泛滥。为了挽回电商的声誉,必须让假冒伪劣产品下架,但是面对10亿量级以上的在线商品,一个个去判断它是不是假冒伪劣,对人工来讲是做不到的。于是,阿里巴巴用了大数据分析的一个技术,通过网站上传的图片、内容、用户数据等方方面面的大数据关联分析,自动来发现假冒伪劣商品并把它下架。再比如360手机杀毒软件。这个杀毒软件通过大数据分析,帮助手机用户拦截非常多的诈骗信息。这两个都是大数据分析的有效案例。
还有,美国中央情报局击毙本·拉登,也是大数据分析非常重要的成绩。本·拉登是一个非常聪明的人,他不用手机等任何现代化的东西,也就是说,通过服务商、互联网,是找不到他的。但是,美国的大数据分析公司帕兰提尔通过对电话、卫星影像、密切联系人的邮件、密切联系人的行踪等大数据综合分析,协助中央情报局获取了本·拉登的位置信息。
通过这些例子,我们可以看到,大数据分析并不神秘,它已经在我们的生活、工作乃至国家政治、经济、社会等各行业,发挥着越来越重要的作用。
记者:当前大数据分析,有哪些重要的技术?
贾焰:现在大数据挖掘分析的一个非常重要的技术,就是知识图谱。知识图谱能把人和人、人和机构、人和事物关联起来,表现形式为一个知识库,呈现为一个语义网,每一个节点都代表着人、机构等实体,每个节点之间的线就是它们之间的关系。
知识图谱是可以不断完善的。比如美国总统特朗普的知识图谱,包含他的出生日、出生地、国籍、职务等属性,它可以慢慢加入他的女儿、夫人、儿子等所有信息,还可以加入与他们有关联的人的家庭背景、人物关系等信息。知识图谱不仅可以从互联网上拿信息进行构建,还可以自己进行推演。比如说它推出A是美国副总统,B是美国总统,就会自动说他们两个是同事。再比如,它可以通过特朗普找到他的妻子,然后找到她的属性是模特,就可以回答“特朗普妻子的职业是什么”这个问题。知识图谱还可以进行属性推理和验证。因为美国法律规定,总统必须是美国出生的,所以说,知识图谱会推断总统国籍是美国。
其实,IBM推的精准医疗,以及我们国家未来要推出的健康咨询、精准医疗,都是基于这样的技术来构建的。有了这个技术,将来可以根据不同人的基因、年龄、生活方式等,精准推荐用药方案。
所以,知识图谱是大数据分析的非常有用的利器,它可以把各种关系不断地关联起来,最后形成一个很有用的数据利用的方法。
记者:大数据为各行各业服务的同时,也泄露了人们的隐私。这种矛盾如何解决?
贾焰:大数据蕴含着巨大的商业价值,目前各行各业都在做大数据分析和挖掘,企业、运营商等在各自拥有的数据或互联网上发布的数据中发掘潜在价值,为提高自己的利润或达到其他目的服务。如何在不泄露用户隐私的前提下,挖掘大数据的价值,是目前大数据研究领域的关键问题。
为了从大数据中获益,数据持有方有时需要公开发布己方数据,这些数据通常会包含一定的用户信息。服务方在数据发布之前需要对数据进行处理,使用户隐私免遭泄露。此时,确保用户隐私信息不被恶意的第三方获取是极为重要的。有时,数据使用者会恶意挖掘大数据中的隐私信息,此种情况下,更需要加强对数据发布时的隐私保护,以达到数据利用和隐私保护二者之间的折中。
记者:数据带来的信息风暴正深刻改变我们的生活、工作和思维方式,对政府和群众关注的网络舆情,大数据分析是否也应用其中?
贾焰:随着我国近年来网络舆情事件的数量逐年增长,社会各界开始重视网络舆情监测、分析与管理。通过大数据技术手段对网络舆情进行监测、分析与管理也日趋重要。
我们有一个互联网舆情的大数据分析系统,可以监督网络的很多问题。比如自媒体微博,假如我在某个帖子加上监控,只要有人在微博上谈论关于这方面的帖子,十几秒就能被监测到。这个系统还可以分析发帖的趋势,谁在发、发了多少、影响了多少人、谁在传,等等。大数据技术的发展,不仅能够针对重大舆情事件个案进行更精准地分析研判,而且便于扩大分析研判的范围和视野,有助于更全面地把握网络舆情发展的整体趋势。通过大数据技术和智能计算技术的结合使用,重大网络舆情事件的预测能力和水平有望得到提升。
在应用方面,很多政府部门和企事业单位,都会通过与舆情机构合作、购买舆情企业系统或服务的方式,构建服务于自身的网络舆情监测、分析与管理机制,提高自身的网络舆情感知能力和危机公关能力。各级政府机关、高校、大中型企业等,通常是网络舆情系统和服务的主要客户。甚至一些中小企业或公众人物,为了产品或个人的口碑,也开始成为网络舆情系统或服务的消费者。
记者:大数据的未来发展趋势是什么?
贾焰:随着大数据分析技术在各行业领域的进一步应用推广,大数据会给我们带来大变革,也会带来更多新的机遇与挑战。
大数据会改变我们的认识。假如把世界看成两个平行的世界,那么人类真实的世界是物理世界,与其平行的是数据世界。物理世界所有的一切,几乎都可以在数据世界有一个反映,即一切都可以数字化。通过“量化一切”实现世界的数据化,可能改变人类探索和认知世界的方式,带来全新的“大数据世界观”。
大数据会改变我们的科学观。当前对抗癌症,用同样治疗的方法,有些人死了,有些人治好了,什么原因?是因为我们的科学还不够精准。其实人的病是跟基因、心情、生活环境等因素相关的。如果能把这些问题的数据全部聚集在一起进行分析,精准用药,就可以实现精准医疗。“科学始于数据”的呼声正在改变人们的科学观和认知观,引发新的科学研究模式。
大数据会改变我们的经济。大数据已经带来巨大的商业利益,金融、能源、交通、健康医疗等重要行业大数据已成为国家重要的战略资源。如何从国家安全层面对大数据进行保护,也是亟待研究和解决的问题。
大数据还可以改变我们的管理。在大数据时代,人是可以被分析的,就像借助显微镜可以看清细胞结构一样,借助大数据分析技术,可以分析人的行为、情感甚至思维,以及复杂系统运行规律,甚至整个社会的运行方式。未来的社会管理,可以借助大数据分析来进行更加科学的引领,创新管理模式、提升管理效率。
贾焰,国防科技大学教授、博士生导师、网络与信息安全研究所副所长,中国计算机学会计算机安全专业委员会常务委员,数据库专业委员会委员,普适计算机专业委员会委员,湖南互联网协会常务理事,湖南省第十届人大代表。
本刊记者 孙大勇//摄影