数据中心散热难？看谷歌和 DeepMind 如何用 AI 搞定它

By 超神经

场景描述：谷歌和 DeepMind 合作，使用机器学习的方法，优化数据中心的能耗问题，有效的实现了数据中心自动化能好管理。

关键词：机器学习数据中心散热控制

随着互联网技术的发展，人们对计算能力需求的增加，大型的数据中心也越来越多。但这样的发展也对环境和能源带来了一丝威胁。

在大规模的商业和工业系统中，数据中心消耗的能源占了很大的比例。从环境角度来看， 2017 的数据显示，数据中心正在使用全球能源使用量的 3％，并排放出全球温室气体的 2％。

另一份报告中指出，数据中心每年使用的电量估计为 200 太瓦时( TWh )，这大概相当于伊朗国家能源总消耗量。

谷歌的一个数据中心

如果能够对数据中心的能源使用作出优化，就算是一些细微的改进，也能很大程度上减少温室气体的排放量，有效地缓解能源和环境问题。

而谷歌，一直在用 AI 技术做这样的事情。

不散热就烧钱

数据中心很大一部额外能源消耗来自于降温冷却，就像笔记本运行时需要散热一样。

谷歌数据中心为谷歌搜索， Gmail ，YouTube 等热门应用提供服务器，运行时也会产生巨大热量，必须有效散热以保证它们正常运行。

数据中心的散热系统

然而，常规用到的降温方法，例如泵，冷却器和冷却塔，在数据中心这样的动态环境中却很难使用，主要的阻力来自于以下几个方面：

1、工程师如何操作设备，以及环境对设备产生的复杂且非线性的影响。传统的方式和人类直觉，在数据中心的复杂环境中，往往无法捕捉到这些相互作用。

2、系统无法快速适应内部或外部的变化（如天气）。这是因为工程师无法对所有的操作场景制定规则和启发式方法。

3、每个数据中心都有独特的架构和环境。一个系统的自定义调整模型可能不适用于另一个系统。因此，需要一个通用的智能框架来理解数据中心的交互。

为了解决以上问题，谷歌和 DeepMind 一起尝试用机器学习（ ML ）的方法，来提高谷歌数据中心的能源使用效率。

2016 年，谷歌和 DeepMind 推出了一个基于 ML 的推荐系统，利用数据中心内的不同操作场景和参数，来训练神经网络系统，创建了一个高效和自适应的框架。

而他们训练的数据，则是数据中心内数千个传感器收集的历史记录，包括温度，功率，泵速，设定点等数据。

PUE（ Power Usage Effectiveness ）被定义为总建筑能耗与 IT 能耗的比率，比例约接近 1 ，就说明能源使用的效率越高。

由于其目标是提高数据中心的能源效率，因此以平均 PUE（电力使用效率）为参数，对神经网络进行训练。

Google 数据中心 PU 测量范围

另外，他们还训练了两个深度神经网络集合，以预测未来一小时数据中心的未来温度和压力。这些预测的目的是模拟 PUE 模型中的推荐操作，以确保不会超出任何操作约束。

通过在数据中心上的实时部署来测试模型。下图显示了其中的一次测试，包括预测何时开启机器学习以及何时关闭它们。

通过 ML 方法的使用，系统能持续将用于冷却的能量减少 40％，排除掉电气损耗和其他非冷却效率低下的原因后，总体 PUE 开销减少了 15％。这在当时相当于节省了上亿美元的资金开支。它也产生了有史以来最低的 PUE。

Google 的所有大规模数据中心的 PUE 数据

在 2018 年，他们将这个系统提升到了新的水平，在新的技术中，AI 将获得更多的自主权，现在的 AI 直接控制数据中心的降温，但也保持在数据中心运营商的专业监督之下。升级后的新系统已经在为多个 Google 数据中心提供节能服务。

这种技术是基于云服务提供分析和策略的。

每隔五分钟，基于云的 AI 就会从数千个传感器中，提取数据中心冷却系统的快照，并将其输入深度神经网络，预测潜在行动的不同组合将如何影响未来的能源消耗。

接着，AI 系统识别哪些操作会带来最小的能量消耗，同时满足保证安全的约束。然后这些操作被发送回数据中心，其中操作由本地控制系统验证然后实施。

具体操作的四个步骤

这个想法源于使用 AI 推荐系统的数据中心运营商的反馈。运营商表示，虽然系统已经教会了一些新的最佳实践，例如通过操作员的帮助和监督，系统实现了将冷却负荷分散到更多的设备上。但好奇是否可以在没有手动实施的情况下实现类似的节能。

然后，AI 就完全接管了这一切。几乎不再需要操作员的协助。

新的系统中，他们重新设计了 AI agent 和底层的基础设施，同时也重点考虑了安全性和可靠性，使用多种机制来确保系统始终按预期运行。

其他安全控制模式

而且，最高的控制权属于操作员，而不是 AI 。工作人员可以随时选择退出 AI 控制模式，通过限制系统的优化边界，将 AI 的使用控制在安全可靠的范围之内。

谷歌的负责人员说到，「我们希望以更少的人力开销实现节能。自动化系统能够以更高的频率实施更细致的操作，同时避免错误。」

在试用新系统的几个月中，他们已经实现了平均 30％的持续节能，而且还在进行改进。而这些系统随着时间的推移以及更多数据积累而变得更好，如下图所示。

该图描绘了 AI 随着时间的变化，蓝色代表数据量，绿色是性能的变化

在几个月的时间里， AI 控制系统性能从 12％的改进（自动控制的初始启动）增加到大约 30％的改进。

随着技术的成熟，系统的优化范围也将得到扩展，从而实现更大的能耗减少。

谷歌的人员表示，数据中心仅仅是个开始。从长远来看，这项技术有潜力应用于其他工业领域，并帮助更大规模的改善环境问题。