日益增长的AI数据存储挑战
人工智能正在为各行各业带来突破,医疗诊断、财务建模、自动驾驶汽车和大规模自动化等都得到革新。然而,AI系统的日益复杂使得数据存储需求呈指数级增长,这为可扩展性、效率和成本等方面带来了挑战。
当前,机器学习数据集需要PB级的存储空间,企业为了跟上不断发展的AI模型的步伐,管理着EB级规模的数据集。这些庞大的数据集必须被高效地存储、检索和处理,以支持模型训练和推理。AI背后的存储基础设施不再仅仅是IT问题——它已经成为AI创新的核心驱动力。
尽管在AI计算方面取得了进步,传统的存储架构在达到应对数据高需求GPU的规模下,会变得复杂且昂贵,这限制了AI应用速度,原因有三:
首先,虽然基于SSD的架构能够提供高性能,但对于AI训练工作负载所需的海量存储需求,其购置成本过于高昂。对于大多数企业来讲,如果将大型数据集都存储在SSD,从成本上看不切实际。
其次,尽管SAS/SATA硬盘系统持续为许多企业应用提供可靠且成本效益高的存储,但AI工作负载对存储基础设施提出了独特的要求。SAS/SATA接口依赖于专有的硅芯片、主机总线适配器(HBAs)和控制器架构,而这些并非专为满足AI工作负载的高吞吐量、低延迟需求而设计。随着AI应用的扩展,这些因素可能会带来复杂性和更多延迟,使得AI模型难以快速访问海量数据集。
最后,依赖云存储的AI工作负载总会避免不了高昂的广域网(WAN)数据传输成本、延迟峰值以及不可预测的检索时间。这些低效因素在处理硬件等待远程数据的过程中,限制了AI模型的响应速度并增加了操作成本。
因此,随着AI的持续扩展,需要一种新的方法——既能增益现有的存储架构,又能平衡容量、成本和速度,在无需任何牺牲的情况下支持AI训练和推理。
一种全新方案:用于AI工作负载的NVMe硬盘
希捷将NVMe技术引入大容量硬盘,开创了一种变革性的解决方案。通过将NVMe开发为硬盘连接的未来标准协议,希捷提供了一种替代方案,旨在优化AI数据管道、减少存储瓶颈,同时保持硬盘的可负担性和密度优势。
与基于SAS/SATA的硬盘不同,NVMe硬盘不需要主机总线适配器(HBA)、协议桥和额外的SAS基础设施,从而使AI存储更加精简。这些硬盘通过在统一的NVMe架构中集成高密度硬盘存储与高速SSD缓存,允许AI工作负载无缝扩展。
这种转变将带来显著的优势。首先,通过取消与处理器接口的硬件适配器,NVMe硬盘简化了AI存储部署,使企业无需专门的控制器即可构建大规模AI存储环境。其次,通过单个NVMe驱动程序和操作系统堆栈,这些硬盘可确保硬盘与SSD高效协同工作,无需单独的软件层。
其中一个最关键的优势是通过DPU实现从GPU到存储的直接数据访问,从而绕过CPU瓶颈。传统存储架构通过CPU驱动的管道传输数据,从而产生延迟问题。NVMe硬盘可以消除这种低效,令AI模型能够以显著减少的延迟来提取和处理海量数据集。
此外,NVMe over Fabrics(NVMe-oF)使NVMe硬盘能够集成到分布式AI存储架构中,确保在高性能数据中心网络中无缝扩展。对于需要灵活、可组合的AI工作流存储解决方案的企业而言,此功能特别有用。
通过将NVMe硬盘与SSD一起使用,企业将能够在保持性能的同时优化成本,为活动数据集预留SSD,并使用硬盘进行长期AI训练数据保留。
验证未来:希捷NVMe硬盘的概念验证
为了体现NVMe硬盘潜在现实影响,希捷进行了NVMe硬盘、NVMe固态盘、NVIDIA BlueField数据处理单元(DPU)和AIStore软件集成的概念验证(POC),展示了高效的AI存储生态系统。
该概念验证重点展示了NVMe硬盘在AI工作流程中的关键优势,并证明它们可以在大规模AI 存储环境中产生重大影响:
◆ 工程师证明,通过NVMe硬盘和DPU的GPU-存储直接数据传输(direct GPU-to-storage communication)有助于减少AI 数据工作流中与存储相关的延迟。
◆ 消除了传统的SAS/SATA额外资源消耗,简化了系统架构并提高了存储效率。
◆ AIStore动态优化了缓存和分层,增强了模型训练性能,同时简化了存储聚合和实现EB级别的可扩展性。
◆ NVMe-oF集成实现了无缝扩展,证明了多机架AI存储集群的可组合性。
通过此概念验证,希捷展示了NVMe硬盘如何在无需全闪存架构的情况下,支持世界上最严苛的AI工作负载。
现实世界的影响:AI存储正在行动
希捷拥有数十年在智能工厂中部署AI模型的经验,并正在利用这些经验来验证NVMe硬盘在现实AI工作负载中的表现。
在希捷的量子天线生产设施中,由AI驱动的缺陷检测依赖于高速图像摄取和快速检索来进行模型训练和持续改进。在这种AI赋能生产环境的实际经验助力下,希捷正在探索NVMe硬盘如何通过提供可扩展、经济高效的存储,支持实时处理和长期保留,得以实现这一过程:
◆ 大容量存储高清图像,无损数据压缩。
◆ 高效长期存储AI训练数据集。
◆ 无缝访问AI模型再训练和持续改进。
通过研究将NVMe硬盘集成到存储架构中,希捷展示了新技术如何降低AI存储成本,同时确保检测的实时响应。新技术带来的增益包括更快的AI驱动分析、更高的准确性,以及更低的基础设施成本。
除了制造业之外,NVMe硬盘还可应用于自动驾驶汽车、医疗成像、金融分析和超大规模云AI平台。
可持续性与成本节约:NVMe硬盘的优势
人工智能基础设施消耗大量电力,使得可持续性成为一个日益受到关注的问题。希捷在NVMe硬盘领域的探索,提供了一种相较于以SSD为主导的架构更具成本效益且节能的解决方案。
与固态硬盘(SSD)相比,NVMe硬盘将提供以下优势:
◆ 每TB所含碳足迹减少10倍,显著降低环境影响。
◆ 每TB运行功耗降低4倍,从而降低人工智能数据中心的能源成本。
◆ 每TB成本大幅降低,减少了大规模人工智能存储的总体拥有成本(TCO)。
随着人工智能基础设施的不断扩展,可持续存储将成为降低运营成本和环境影响的关键要素。希捷的开发路线图将持续致力于提升NVMe硬盘的效率,旨在助力企业在达成长期可持续发展目标的同时,能够实现人工智能存储的大规模扩展,从而在环保与成本效益之间找到平衡点。
人工智能存储的未来之路
希捷正在开发创新技术,以推动下一代支持人工智能的存储基础设施的发展,这与行业趋势以及超大规模和云计算环境的需求相契合。其路线图包括:
◆ 扩展魔彩盒(Mozaic)平台(目前已推出36TB硬盘),开发更高容量的NVMe硬盘。
◆ 推进NVMe-oF支持,使人工智能工作负载能够无缝地扩展到混合环境中。
◆ 创建参考架构,确保人工智能开发者能够轻松部署优化后的存储解决方案。
希捷在与客户及合作伙伴共同探索NVMe硬盘如何融入下一代人工智能存储解决方案,确保企业能够以经济高效的方式满足人工智能存储需求。
希捷对人工智能存储未来的承诺
人工智能正在改变着各行各业,然而许多企业却为数据管理的复杂性和不断上升的存储成本而苦恼。可扩展且高效的存储对于推动人工智能创新至关重要。
希捷的NVMe硬盘展示了如何在保留硬盘成本优势和密度优势的同时,通过NVMe连接降低存储部署的复杂性。通过在概念验证(POC)中实现AIStore集成、NVMe-oF可扩展性以及GPU优化的存储路径,希捷正引领着下一波人工智能基础设施创新的浪潮。
随着人工智能重塑各个行业,希捷也在重新定义人工智能存储基础设施的扩展方式,以满足日益增长的数据存储需求。