深度学习硬件才是进步的核心。现在让我们忘记2008-2012年深度学习的快速扩展,近年的进步主要取决于硬件:在社交媒体的帮助下,每部手机上的廉价图像传感器都可以收集巨大的数据集,但其只处于次级重要程度。GPU允许加速深层神经网络的训练。在过去2年里,机器学习硬件蓬勃发展,尤其是针对深度神经网络的硬件。
有几家公司正在这个领域努力,包括英伟达、英特尔、Nervana、Movidius、Bitmain、Cambricon、Cerebras、DeePhi、谷歌、Graphcore、Groq、华为、ARM以及Wave Computing等,他们都在开发定制的高性能微型芯片,能够训练和运行深层神经网络。关键是提供最低功耗和最高的可测量性能,同时计算最近有用的神经网络操作,而不是每秒钟的原始理论操作。但是在这个领域很少有人了解硬件是如何真正改变机器学习、神经网络和AI的,很少有人知道微型芯片的重要性以及如何开发它们。
训练或推理:许多公司都在制造能提供神经网络训练的微型芯片。这是为了获得英伟达市场的一部分,它是迄今为止事实上的培训硬件。但这种训练只占深层神经网络应用的很小部分。对于每个训练步骤,实际应用程序中都有上百万个部署。例如,你现在可以在云端使用的一个目标检测神经网络,它曾经被训练过一次,并且在很多图像上都是可以使用的。但是一旦经过训练,它就可以被数以百万计的计算机用于数十亿的数据。
我们在这里想说的是,训练硬件的重要性和你所使用的次数相比是微不足道的,而制作用于训练的芯片组需要额外的硬件和额外的技巧。这将导致相同性能却消耗更高的功率,因此不是当前部署的最佳状态。训练硬件是很重要的,而对推理硬件进行修改却很简单,但它并不像许多人认为的那样重要。
应用程序:能够更快、更低功率地提供培训的硬件在这个领域非常重要,因为它将允许更快地创建和测试新的模型和应用程序。但真正重要的一步是应用所需的硬件,主要是推理硬件。今天有许多应用之所以无法使用,主要是因为硬件而不是软件。例如,我们的手机可以是基于语音的助手,目前是次优的,因为它们不能一直运行。就连我们的家庭助理也离不开电源,除非我们在周围安装更多麦克风或设备,否则就不能跟着我们。但也许最大的应用是将手机屏幕从我们的生活中移除,并将其嵌入到我们的视觉系统中。如果没有超级高效的硬件,所有这些和更多的应用将是不可能的。
赢家和输家:在硬件方面,赢家将是那些能够以最低功耗发挥更高性能、并能将设备迅速投入市场的公司。想象用手机代替SoC,这种情况每年都会发生。现在想象下将神经网络加速器嵌入到内存中。这可能会更快地征服市场,并快速渗透,这就是我们所说的赢家。