让大数据基础设施更智能
2016-10-15徐葳
徐葳
云计算时代,什么是云计算自动化?现在所谓先进的云计算自动化的水平,是一个基于规则的专家系统。包括Openstack告诉你,如果系统里发生什么事,如果用户干什么,我需要干什么,为什么这东西不能用?因为系统很复杂,这么复杂的东西,你需要写多少行规则才能够运行它呢?并且一旦系统出了一点儿问题,就运行不了。所以单靠写规则来实现机器的智能不太现实。
那么,今天我们如何利用大数据和人工智能让基础设施更聪明?第一点你必须得看见数据中心有什么,发生了什么事,你如果看不见没法智能。第二点,怎么总结以上提到的这些;第三点,怎么能够让这些机器自己“想”一些事清;第四点,让我做的东西更加精确、更加可靠,让大家能放心。让机器自己有学习能力,这样才能有一个真正智能计算的基础架构。
其实这个过程说起来容易,但每走一步,都会面临巨大挑战。计算机系统的发展,跟飞机比较相象,飞机是有物理模型后,才有控制链,计算机的增长到现在,叫做游击增长,在这种情况下,我们怎样能够控制它,能够让它变的更智能?
系统管理与知识管理
简单介绍下我们过去做的工作,给大家一些启示:如何处理数据中心里的数据。在数据中心,你要想看到他本身产生大数据,怎么看?我们的机器无时无刻不产生着一些数据、日志、文字,怎样把这些文字变成结构化、半结构化的信息,能够知道系统发生了什么事,知道这些日志记载的用户干了什么事情,这就是日志的分析。后来分析日志慢慢被人遗忘,为什么?因为大家觉得日志的生成分析有些贵,是不是值得花这么多钱分析这些数据?能不能分析出一些东西不好判断。
为什么日志的分析非常贵呢?你需要把一个计算机里的信息、结构化的信息排成一个平板化的文字型日志,当你学习时再读出来,分析成结构化,这些东西浪费了很多时间以及网络带宽等。现在大家的做法是,我不采取日志,并且把日志信息开销做得非常简单,我可以不采集文本信息,直接采集结构化信息,只有需要改变文本,需要给人看的情况下,生成信息,在这种情况下我们可以把日志分析的开销降低。
日志这个系统有个监控数据,一定要看到,你看的越细系统越智能,看到这么多数据,数据是零散的是乱的,怎么整理成知识。这些知识是人造的,人记录的,干这个活要记录,这种系统管理和运营的经验是难以传授和难以保持的,几天不干就忘掉了,所以,这就是为什么有IT咨询行业。
我们希望知道的事情是什么?系统在哪里,那东西是人做的,为什么我们不能自动发觉它的知识,为什么不能自动管理它的知识呢,我们认为这个是可行的。
我们看到系统里最简单的规则,包括日志、数据库里的内容,通过文本挖掘和一些挖掘手段自动建立起一张知识结构的网络图。抓住系统与不同组件之间的关系,也就抓住了时序上的关系。通过这个图可以把系统管理员的各种问题,他脑子里想的问题全部变成图,这样我们可以让一切东西,变的非常机械化和自动化。
系统管理与知识管理,是初步的工作后面还有很多可完善的地方。但系统管理工作、系统知识和系统里的数据我们是可以用一个非常机械的方法管理,这个是通往自动化更重要的一步。
灵活基础设施的意义
灵活的基础设施非常有意义,你要用好这种灵活基础设施,需要有跨层的优化方法,什么是跨层?机器设计时是一层一层的,为什么有这些层,为什么抽象?因为人记不住这么多的知识,现在大数据时代是靠数据分析的这些知识,靠机器分析无所谓记不记得住,机器看的时候是一体看下去,把跨层优化,尝试很多方案,这种方案的结果是人工智能比人做的好,我们认为应该充分利用。
最后谈一下控制机器。举个例子,我们跟百度合作的数据中心供电项目,百度数据中心供电容量非常贵,建造花费 (大型系统): 每千瓦9,000~13,000美元,但他的平均功率利用率<72%为什么?因为不敢往里放,管理员怕应用放上去会造成用电压力,主要原因来自于供电时空分布不均匀,缺少智能调度,故以保守利用为主。
供电调度的思路看似很简单,比如你觉得某个地方有点多了,就不要再把任务往这个地方调,而是调到别处去。但别的地方增加多少,某个地方减少多少,这个量是无法做到精确的,包括接口限制太大、影响系统运行的因素太多、在生产系统上没有办法做系统模型等原因。
这时需要用持续的反馈控制,来补偿误差。例如,我们通过发电控制的技术手段减少误差,多放17%服务器,增加15%吞吐量,是否不影响供电安全,也不影响业务性能?反馈控制是一种提升控制的可靠性和精度的好方法。我们希望控制一个系统,如果他稳定,怎么稳定更好,控制它比不控制要强。
最后总结一下,第一点,怎么让数据中心变得更智能?数据要采集,要整理,我们要问系统你到底是什么,有什么问题。第二点,我们需要影响机器,需要给它做一些事情,这个时候我们需要软件定义,让这个控制的操作更加的可靠,更加精准。
后面一步是什么?我们认为用深度学习、加强学习的智能方法,让系统知道我在何种情况下,什么时间做哪些动作。在这些条件下,系统才会真正变的更智能,而不是靠规则运行。(根据演讲内容整理,未经本人审核)