中国科学院院士、北京航空航天大学校长怀进鹏：关于新型计算模式的研究与思考

2015-08-22

中国教育网络 2015年1期

中国全功能接入互联网已有20年的历史，互联网在为人们提供便利的同时，也给教育科技的发展带来了巨大的益处，并步入了以云计算和大数据为特征的科研信息化时代。面对庞大的数据信息，如何进行数据处理，如何进行计算成为大众关注的热点问题。对此，中国科学院院士、北京航空航天大学校长怀进鹏在近日举办的“CERNET第二十一届学术年会”上发表的主题演讲里做了详细分析，并就互联网大数据时代下新型计算模式进行了探讨。

大数据出现以前人们只关心算法，现在则会有新的挑战性的问题：原来可近似性的问题，在大数据面前就不能近似了。这就需要不仅要考虑到算法近似，还要考虑数据近似以及结果的近似。

互联网的转型

根据吉尔德定律，主干网带宽每六个月加一倍，而每比特的费用将趋于零。20年来，IT技术不断发展，计算速度和存储能量也产生了巨大变化，CPU性能提高了3500倍，但内存和硬盘的价格却分别下降了45000倍和360万倍，在此背景下，提供了一个完全与众不同并且不断加速的空间，即宽带的速度远超过摩尔速度时，所有终端计算都进入网络计算，离线进入了在线时代。

互联网为人们提供更多更好的服务，随着互联网不断发展，特别是在进入移动互联网时代后，计算模式和技术都有了新的变化。如何建立一个更加开放的环境，从而使研究和教育更加有效日渐引起人们的关注。

最近几年，“大数据”频频被提及，人们对其的关注度也越来越高。数据处理一直是计算机技术、信息技术的一个重要内容。进入虚拟计算这样一个新的环境的时候，实际上已经表现出向终端到网络化、应用的智能化和系统管理的虚拟化的发展。同时，也带来了不同时期的变革。

第一次变革来自于PC时代，按许可证购买版权，软件成为商品。第二次变革就是在互联网时代下，基于互联网的信息服务业。互联网给我们带来了巨大的影响，促进了产业和学术的发展，这两次重要的变革都对实际的应用产生了重要的影响，比如CERNET就在发展推动研究和教育中有着不可或缺的巨大历史贡献。而第三次变革则不得不思考，云计算与大数据时代产生的新机遇。如今进入了用户产生内容、移动互联的新时代，将有可能出现一种新的机会和新的情况。随着移动终端数量的不断增长，这些终端所产生的数据和内容，以及为这样的内容所提供的服务会产生一个新的变化。这种变化不是商业模式的改变，而是其背后的数据分析时代的到来。未来互联网将创造出新的价值，是否以数据与服务为中心值得期待。如何有效地提供并支撑好数据库，并将其融入到教育事业中去，也是值得去思考的。

大数据带来新计算时代

大数据的出现，带来了一定的好处，但也产生了一些问题。2010年，《经济学人》杂志做了一个关于“Data Deluge（数据泛滥）”的专题，指出信息从稀缺走向极大丰富，在带来便利的同时也导致大麻烦。例如，银行的评估机构拥有大量的数据，但依然无法预测出2008的金融危机。因此，当数据泛滥、无处不在时，如何去认识并利用数据是需要多加关注的。当然，大数据也确实给人们带来了很多机遇，并成功应用于传统医学研究、生物信息、高能物理等领域。

由于大数据的产生，谷歌在2008年通过庞大搜索数据训练4.5亿个数学模型，提前几周预测出H1N1流感在美国地区的爆发和传播，其准确的地域覆盖人群和基本特征都非常明确，这也使得医学专家，特别是医疗疾控领域专家对此刮目相看。另外如阿里巴巴、百度也有很多利用大数据分析的有效结果。因此，随着互联网不断变化，它已经从一个通讯的平台进入到计算的平台，而这种计算的平台改变了人们现在经济社会的生活。

众所周知，量变是容易把握和认识的，而质变则是很难发现的。对于未来发展，大数据是不是有科学价值，则需要像“盲人摸象”一般，不断地去探索。通常，科学研究有三个模式，分别是理论研究、实验研究和计算研究，那么针对第四种模式——数据密集型的科学发展正在被人们所认识和利用，一些基于实验科学所开展的工作有相当一部分源于这种模式。

大数据是否会改变过去的计算模式？显而易见，互联网的出现改变了人们的交流方式，而大数据处理则改变了经济和社会方式。

第一，从抽样向全样转变。大数据具有 4V（volume、velocity、variety、value）特征，即规模大、变化快、种类杂、价值密度低。在过去的计算的模式下，以抽样、统计数学为主要特征。而在数据规模十倍、一百倍、一千倍变化的时候，过去的算法并不适用，这就需要全样的分析。

第二，从精确计算向非精确计算转变。过去追求的精确计算，期望得到准确的解答。大数据下精确性不再是绝对追求目标，需对宏观趋势给出快速预测，上网的搜索未必得出唯一的内容。

第三，从因果向关联转变。过去做科学研究，不仅要知其然，还要知其所以然。但在大数据面前，仅需知其然，无需知其所以然，用于“发现事实、预测未来” 。

同时，大数据的计算具有相似性（inexact）、增量性（incremental）和归纳性（inductive）的特征，因此，要以这三个特征为基础去研究它的算法和复杂性。研究在如此广泛的数据下，是否会出现新的计算模式。

随着互联网的进一步应用，有可能出现以数据科学和理论为代表的新型计算模式。数据计算科学对计算理论、数据表示和学习方法提出新的挑战，这也许是数据科学和技术的转型。

大数据科学的问题

实际上，可计算问题是计算机科学的本质问题，而算法是一切计算问题的核心。公式G=F（X）中，F是算法，那么过去关于“F”做了哪些工作？70年代以前一直做算法研究，到了70年代发现有NP问题，而80年代出现了随机化算法，90年代发现近似算法。目前，在大数据时代，计算复杂性与算法是否面临新的问题？

在大数据下，传统认为易解问题可能成为“难解”问题。因为通常说大数据是指算不了的数据，如采用最快硬盘读取速度6Gbps,仅线性扫描，1PB数据扫描下来需1.9天；1EB数据则需5.28年；但是，百度一天处理网页数据超过10PB，把这些数据扫描下来则需要19天，所以大数据是目前处理不了的数据。

在大数据下的计算，太小的数据无法计算，数据太多则精度不够。因此需要有新的计算模型，通过信息计算的方法，把数据以存储感知为基础，再加上计算联动的方式。未来，在这一领域将有很多新的结果，如何把多个资源融合和扩大提供服务，也引起学术界重视，图数据搜索正在成为新型“社会搜索”引擎。

此外，通过分析20万的新浪用户的7000万条的微博数据，发现愤怒是相关性最强的情绪，其次是高兴、低落和厌恶，这也验证了中国的一句俗语：“好事不出门，坏事传千里”。这一发现结果也被90多个国家的数百家媒体报道。

当然，在未来的互联网这个大数据应用当中，依然会面临的一个问题就是数据安全和系统安全，这是大数据研究中非常重要的。数据需要开放和透明，某个人的基本信息是可以开放的，但是作为隐私的数据是可以单独保留的。

从数据科学到机器智能

在研究过程中，希望通过无序的数据能够找到它信息的关联图谱，通过信息图谱的深度融合和发掘，能建立起知识图谱而不是孤立的事件。通过关联融合形成的知识图谱，能对某一类的问题或现象有一个判断和认知。例如，在UGC下，是否有可能通过用户产生的数据做出预测分析，通过数据计算给人工智能和认知科学带来一个新的思考。

目前，主要还是以数据科学研究计算，通过它来进一步延伸进行迁移学习、自主学习等。其目的是形成知识的关联和构造出的复杂结构，能够为社会科学、传媒学、社会经济以及互联网发展提供数据的支持。

一位管理大师曾说过：“重要的不是趋势，而是把握趋势的转变”。尽管有很多难度，但是对数据的认识还是可以不断进化的。如果可以来利用这样的样本规模，通过不同方式的学习，使机器真的开始有学习记忆、认知，并且能够具有自主性。那么，看似无序的数据分析，却可能通过认识数据的外部功能和构造，来形成新的智能研究的方法，这也是一件可以探索的事情。