数据中心散热难?看谷歌和 DeepMind 如何用 AI 搞定它

124 阅读7分钟

By 超神经

场景描述:谷歌和 DeepMind 合作,使用机器学习的方法,优化数据中心的能耗问题,有效的实现了数据中心自动化能好管理。

关键词:机器学习  数据中心 散热控制

随着互联网技术的发展,人们对计算能力需求的增加,大型的数据中心也越来越多。但这样的发展也对环境和能源带来了一丝威胁。 

在大规模的商业和工业系统中,数据中心消耗的能源占了很大的比例。从环境角度来看, 2017 的数据显示,数据中心正在使用全球能源使用量的 3% ,并排放出全球温室气体的 2% 。

另一份报告中指出,数据中心每年使用的电量估计为 200 太瓦时( TWh ),这大概相当于伊朗国家能源总消耗量。

谷歌的一个数据中心

如果能够对数据中心的能源使用作出优化,就算是一些细微的改进,也能很大程度上减少温室气体的排放量,有效地缓解能源和环境问题。

而谷歌,一直在用 AI 技术做这样的事情。 

不散热就烧钱

数据中心很大一部额外能源消耗来自于降温冷却,就像笔记本运行时需要散热一样。

谷歌数据中心为谷歌搜索, Gmail ,YouTube 等热门应用提供服务器,运行时也会产生巨大热量,必须有效散热以保证它们正常运行。 

数据中心的散热系统

然而,常规用到的降温方法,例如泵,冷却器和冷却塔,在数据中心这样的动态环境中却很难使用,主要的阻力来自于以下几个方面: 

1、工程师如何操作设备,以及环境对设备产生的复杂且非线性的影响。传统的方式和人类直觉,在数据中心的复杂环境中,往往无法捕捉到这些相互作用。 

2、系统无法快速适应内部或外部的变化(如天气)。这是因为工程师无法对所有的操作场景制定规则和启发式方法。 

3、每个数据中心都有独特的架构和环境。一个系统的自定义调整模型可能不适用于另一个系统。因此,需要一个通用的智能框架来理解数据中心的交互。 

百行代码节省上亿美元

为了解决以上问题,谷歌和 DeepMind 一起尝试用机器学习( ML )的方法,来提高谷歌数据中心的能源使用效率。 

2016 年,谷歌和 DeepMind 推出了一个基于 ML 的推荐系统,利用数据中心内的不同操作场景和参数,来训练神经网络系统,创建了一个高效和自适应的框架。 

而他们训练的数据,则是数据中心内数千个传感器收集的历史记录,包括温度,功率,泵速,设定点等数据。 

PUE( Power Usage Effectiveness )被定义为总建筑能耗与 IT 能耗的比率,比例约接近 1 ,就说明能源使用的效率越高。 

由于其目标是提高数据中心的能源效率,因此以平均 PUE(电力使用效率)为参数,对神经网络进行训练。 

Google 数据中心 PU 测量范围

另外,他们还训练了两个深度神经网络集合,以预测未来一小时数据中心的未来温度和压力。这些预测的目的是模拟 PUE 模型中的推荐操作,以确保不会超出任何操作约束。 

通过在数据中心上的实时部署来测试模型。下图显示了其中的一次测试,包括预测何时开启机器学习以及何时关闭它们。 

通过 ML 方法的使用,系统能持续将用于冷却的能量减少 40% ,排除掉电气损耗和其他非冷却效率低下的原因后,总体 PUE 开销减少了 15% 。这在当时相当于节省了上亿美元的资金开支。它也产生了有史以来最低的 PUE。 

Google 的所有大规模数据中心的 PUE 数据

基于云的 AI 即将取代人力

在 2018 年,他们将这个系统提升到了新的水平,在新的技术中,AI 将获得更多的自主权,现在的 AI 直接控制数据中心的降温,但也保持在数据中心运营商的专业监督之下。升级后的新系统已经在为多个 Google 数据中心提供节能服务。 

这种技术是基于云服务提供分析和策略的。 

每隔五分钟,基于云的 AI 就会从数千个传感器中,提取数据中心冷却系统的快照,并将其输入深度神经网络,预测潜在行动的不同组合将如何影响未来的能源消耗。 

接着,AI 系统识别哪些操作会带来最小的能量消耗,同时满足保证安全的约束。然后这些操作被发送回数据中心,其中操作由本地控制系统验证然后实施。 

具体操作的四个步骤

这个想法源于使用 AI 推荐系统的数据中心运营商的反馈。运营商表示,虽然系统已经教会了一些新的最佳实践,例如通过操作员的帮助和监督,系统实现了将冷却负荷分散到更多的设备上。但好奇是否可以在没有手动实施的情况下实现类似的节能。 

然后,AI 就完全接管了这一切。 几乎不再需要操作员的协助。

新的系统中,他们重新设计了 AI agent 和底层的基础设施,同时也重点考虑了安全性和可靠性,使用多种机制来确保系统始终按预期运行。

其他安全控制模式

而且,最高的控制权属于操作员,而不是 AI 。工作人员可以随时选择退出 AI 控制模式,通过限制系统的优化边界,将 AI 的使用控制在安全可靠的范围之内。

谷歌的负责人员说到,「我们希望以更少的人力开销实现节能。自动化系统能够以更高的频率实施更细致的操作,同时避免错误。」 

AI 说:没有最强,只有更强

在试用新系统的几个月中,他们已经实现了平均  30% 的持续节能,而且还在进行改进。而这些系统随着时间的推移以及更多数据积累而变得更好,如下图所示。

该图描绘了 AI 随着时间的变化,蓝色代表数据量,绿色是性能的变化

在几个月的时间里, AI 控制系统性能从 12% 的改进(自动控制的初始启动)增加到大约 30% 的改进。

随着技术的成熟,系统的优化范围也将得到扩展,从而实现更大的能耗减少。 

谷歌的人员表示,数据中心仅仅是个开始。从长远来看,这项技术有潜力应用于其他工业领域,并帮助更大规模的改善环境问题。

点击阅读原文