在AI计算机训练与推理领域,存在着这样一种理念:如果计算需求很大,那么为其提供动力所需的能量也将很大。这种理念也被该领域广泛接受。那么有没有可能开发出一种既可以显著提升计算能力又无需消耗过多能量的方法呢?IBM在顶会ISSCC上介绍了一种7nm训练推理节能芯片。
自动驾驶汽车、文本转语音和送货无人机,这些都是人工智能的典型应用。为了不断推动 AI 淘金热,人们一直致力于改善 AI 硬件技术的核心,即赋能深度学习的数字 AI 内核,它是人工智能的关键推动力。
在该领域的深入探索中,IBM Research 通过材料、设备、芯片架构和整体软件堆栈方面的创新,在适应 AI 系统的负载复杂性以及简化和加速性能方面取得了长足进步,从而推动具有尖端性能和无可比拟能效的下一代 AI 计算机系统的开发。
近日,在 2021 年国际固态电路虚拟会议(ISSCC)上发表的一篇新论文《A 7nm 4-Core AI Chip with 25.6TFLOPS Hybrid FP8 Training, 102.4TOPS INT4 Inference and Workload-Aware Throttling》中,IBM 团队详细介绍了全球首个采用 7nm 技术进行低精度训练与推断的节能 AI 芯片。通过其新颖的设计,该 AI 硬件加速器芯片支持多种模型类型,同时在所有模型类型上均实现了领先的能效。
IBM 表示,通过令训练更靠近边缘以及使数据更靠近来源,这一芯片技术可以扩展并用于多种商业应用,从云上的大规模模型训练到安全隐私服务。此外,这种高效节能的 AI 硬件加速器可以显著提升计算能力,包括混合云环境中的计算能力,并且无需大量的能源。
AI 模型的复杂性和适应性正在迅速扩展,现已用于药物发现、遗留 IT 应用的现代化以及为新应用编写代码等。但是,AI 模型复杂性的快速演化也增加了该技术的能耗,并且面临的一个主要问题是如何创建复杂的 AI 模型而不增加碳排放量。从历史上看,该领域已经接受了这样一种理念,即如果计算需求很大,那么为其提供动力所需的能源也将很大。
IBM 想要改变这种理念,开发出一种既可以显著提升计算能力又无需消耗过多能量的全新节能 AI 硬件加速器。
如何实现
这篇 ISSCC 论文聚焦如何创建针对所有不同 AI 模型类型的低精度训练与推断进行高度优化的芯片,且该芯片在应用层面上对质量不造成损害。
IBM 展示了该新芯片的多种新特性:
IBM 表示这是首个集成了超低精度混合 FP8 (HFP8) 形式的硅芯片,可以 SOTA 硅技术节点(7 nm EUV-based 芯片)训练深度学习模型。在所有不同精度条件下,其原始能效是最优的。下图 2 展示了 IBM 芯片性能与能效超过其他专用的推断和训练芯片。
从上图中,我们可以看到 IBM 将该 7nm 芯片与多款芯片做了对比,包括阿里巴巴 12nm 的芯片以及英伟达的 A100。
但这并不是全部。它还是将电源管理整合到 AI 硬件加速器中的第一批芯片之一。该研究表明,通过放慢高功耗计算阶段的速度,可以在芯片的总功耗预算内最大化其性能。
最后,芯片除具有出色的峰值性能外,还具有可转化为实际应用性能的高持续利用率,这也是该芯片提高能效的关键部分。作者称,与远低于 30%的典型 GPU 利用率相比,该芯片可实现 80%以上的训练利用率和 60%以上的推断利用率。
应用前景广泛
IBM 研究员表示,这一新的 AI 核与芯片可用于多种跨行业的云与边缘应用。例如,相对于当前行业中使用的 16 位(bit)和 32 位格式,该芯片可用于 8 位视觉、语音和自然语言处理的大规模深度学习模型云训练。它们还可用于语音到文本 AI 服务、文本到语音 AI 服务、NLP 服务、金融交易欺诈检测等云推断应用程序。
自动驾驶汽车、安全摄像头和移动电话也可以从中受益,该芯片可以方便地在边缘设备上进行联邦学习,以实现定制化,保护客户的隐私、安全性和合规性。
作者希望通过这项工作建立一种全新的方式,来创建和部署可扩展性能并降低功耗的 AI 模型。