这个英特尔至强融核系列的新成员是专门针对深度学习训练进行了优化,预计在2017年第四季度投产。该处理器旨在满足数据科学家、工程师以及所有致力于机器学习技术应用领域的用户独特需求。Knights Mill尤其能够通过充分利用低精度计算优势而大大缩短训练深度学习模型的时间。
为什么低精度如此重要?简单地说,数据科学家需要硬件能够在训练模型时加速融合。在过去,深度学习模型可能要花上几天甚至几周的时间才能完成一个迭代的融合,这使得他们很难在有限的时间内进行研究。如今的硬件能够通过低精度计算把训练时间缩短到几个小时——这相当于加快了计算速度。只要硬件能满足深度学习框架的精度要求,那么最重要的就是看硬件训练模型的速度有多快。因此低精度计算可用于解决深度学习负载问题,并且与高性能计算相比是首选的计算方式,后者通常需要单或双精度运算性能。
那么Knights Mill和之前代号为Knights Landing的英特尔至强融核处理器有何不同呢?人们经常听到专注于高性能计算、人工智能和机器学习的用户提出这个问题。
Knights Mill使用和Knights Landing相同的整体架构和分装,两个CPU都是第二代英特尔®至强融核处理器,并使用相同的平台。区别就是Knights Mill使用不同的指令集来改进低精度性能,但牺牲了对许多传统高性能计算负载非常重要的双精度性能。这意味着Knights Mill适用于处理深度学习负载,而Knights Landing则更适合高性能计算负载以及其它要求高精度的运算。
这些不同的指令集被称作“四倍融合乘加指令”(QFMA:Quad Fused Multiply Add)和“四倍虚拟神经网络指令” (QVNNI: Quad Virtual Neural Network Instruction)。QFMA能把Knights Mill的单精度性能提高一倍,而QVNNI指令则可以进一步降低精度,同时满足深度学习框架的精度需求。把单精度性能提高一倍并进一步降低精度的结果将使Knights Mill相比Knights Landing能够为深度学习负载提供更高的运算性能。此外,频率、电源和效率方面的改善也推动了性能的提升,但是指令集变化才是性能显著提升的最大因素。
退一步说,Knights Mill处理器并不仅仅是为了加速深度学习负载,而且是在现有的基于英特尔技术的环境中获得新的处理功能。英特尔至强融核处理器平台二进制兼容英特尔至强处理器。几乎所有运行在英特尔至强处理器上的负载都能运行在英特尔至强融核处理器上,这就让用户可以轻松地在英特尔平台上共享软件投资。
另一方面,英特尔正在统一深度学习实践者在整个硬件平台上使用深度学习框架的前进道路。这些都是受益于英特尔NervanaGraph把先进的功能带到深度学习框架。这个面向神经网络的计算和执行图让开发者能够在多个硬件对象上自动进行优化,从而让用户能够在不同的英特尔平台上共享其软件投资。
近年来英特尔不断延伸人工智能技术布局,收购深度学习和神经网络芯片与软件领域的领导厂商 Nervana,通过一系列投资和英特尔至强、至强融核产品、FPGA 相结合,提供全栈实力处理端到端数据。即将推出的英特尔至强融核处理器Knights Mill,更是显著加速深度学习处理,驱动人工智能领域的进一步发展。