" 打开水龙头前,我们不需要知道水是从哪条河里来的。同理,未来我们用各种 AI 应用时,也不会知道它调用了哪些基座模型,用到了哪种加速卡的算力——这就是最好的 AI Native 基础设施。"
这样的 AI Native 基础设施,需要大家共同构建。近日,在 2024 年世界人工智能大会 AI 基础设施论坛上,无问芯穹联合创始人兼 CEO 夏立雪发布了全球首个千卡规模异构芯片混训平台,千卡异构混合训练集群算力利用率最高达到 97.6%。
同时,夏立雪宣布无问芯穹 Infini-AI 云平台已集成大模型异构千卡混训能力,是全球首个可进行单任务千卡规模异构芯片混合训练的平台,具备万卡扩展性,支持包括 AMD、华为昇腾、天数智芯、沐曦、摩尔线程、NVIDIA 六种异构芯片在内的大模型混合训练。
从 7 月起,通过试训申请的用户,可以在 Infini-AI 上一键发起 700 亿参数规模的大模型训练。
就在 4 个月前,无问芯穹 Infini-AI 大模型开发与服务云平台宣布首次公测,智谱 AI、月之暗面、生数科技等大模型公司客户已在 Infini-AI 上稳定使用异构算力,还有 20 余家 AI Native 应用创业公司在 Infini-AI 上持续调用各种预置模型 API,使用无问芯穹提供的工具链开发自身业务模型。
此次发布全球首个可进行千卡规模异构芯片混训的平台,不仅是无问芯穹在异构计算优化与集群系统设计方面的技术实力体现,同时也是无问芯穹秉承 "MxN" 中间层生态理念的重要成果。
无问芯穹率先构建了 "MxN" 中间层的生态格局,实现多种大模型算法在多元芯片上的高效、统一部署。
Infini-AI 平台已支持 Qwen2、GLM4、Llama 3、Gemma、Yi、Baichuan2、ChatGLM3 系列等共 30 多个模型和 AMD、华为昇腾、壁仞、寒武纪、燧原、海光、天数智芯、沐曦、摩尔线程、NVIDIA 等 10 余种计算卡,既支持单一算法与芯片的一对一连接,又支持多种模型和多种芯片的自由搭配和组合。
据夏立雪透露,预计到今年年底,无问芯穹会完整实现模型到芯片的 M×N 自动路由。
万卡集群是大模型兵家必争之地,国内面临生态打通难题
无问芯穹联合创始人兼 CEO 夏立雪认为,算力是 AI 发展的前哨和基石。GPT-4 之后出现的模型规模没有进一步指数增长,背后支撑算法所需的算力遇到了瓶颈,目前无人能实现更大规模、更大单个模型计算量的大系统,这使得模型发展进入了放缓和停滞的状态,或者说,支撑模型能力迈向下一代的算力系统还需要研发和构建。
大模型在 Scaling Law 的作用下进行全球范围内算力的竞赛。有报道称,微软和 OpenAI 在构建一个超过 1000 亿美金的大算力项目。相比其他很多技巧来说,这种简单粗暴的规模扩张,带来了最切实际的模型智能性的回报。谷歌、OpenAI 以及国内的大厂和三大运营商都在构建万卡规模的大集群。
在真正的可持续迭代的、大的、稳定的系统中,Scaling Law 有独特的优点,没有那么多丰富的技巧,更便于进行维护和扩展。对于一个真正长期要运行的系统来说,可扩展是非常重要的属性,可扩展的系统才是好系统。
IDC 图表显示,全球范围内未来 AI 推演和训练的算力需求呈高速发展的状态,训练和推理均需要强大的计算资源支撑。这个庞大市场背后的国内外生态差异很大。国外生态模型层和芯片层的格局相对集中,中国生态是相对分散和生机勃勃的状态,模型层、芯片层都在竞向扩展算力市场,面临很多生态打通的关键问题。
万卡集群是大模型的兵家必争之地。夏立雪分享说,现在国内有 100 多个千卡集群在建设或计划建设,其中大部分的集群都是异构算力,很多集群在使用不同的芯片服务和从事 AI 生产。原因包括过度依赖单一硬件平台可能产生供应链风险、国产芯片的性能快速提升为集群方提供了多种选择等。
然而,大量的异构芯片也形成了 " 生态竖井 ",不同硬件生态系统封闭且互不兼容,软件栈不能很好地协调和打通,算力使用面临一系列非常复杂的工程挑战。即便算力集群众多,仍难以实现有效的整合与利用,这是对算力资源的浪费,不仅成为构建 AI Native 基础设施的最大难点,也是当前大模型行业面临 " 算力荒 " 的重要原因。
无问芯穹想构建一个能适配中国多模型与多芯片生态格局的 AI Native 基础设施,提供高效整合异构算力资源的好用算力平台,以及支持软硬件联合优化与加速的中间件,打破现有 " 生态竖井 ",让异构芯片和集群真正转化为大算力。
AI 的训练推理任务和传统的计算有很大的差异,比如单任务会很大并且很突发,所以如果不做一个更 AI Native 的调度策略,会使整个系统的资源利用率非常低,甚至导致客户任务经常挂掉重启,进而耽误 AI 发展进程。
无问芯穹的解决方案在底层有完善的云管系统,包括调度能力以及 PaaS 和 MaaS 平台。下面相当于是云端协同的算力底座,能让大模型的开发者和研究者拎包入住,快速把不同算力用起来。
在这基础上构建的 MaaS 的服务平台,也就是模型集服务的平台,可提供很多灵活应用的大模型服务,来帮助一些还在 AI 学习期的企业敏捷开发一些大模型大规模应用。
实现不同芯片交叉混训,降低大模型应用落地成本
一系列产研进展背后,无问芯穹研发团队在异构芯片计算优化与集群系统设计上有非常多的实践经验与成果。
近日,无问芯穹与清华、上交的联合研究团队发布了一个用于大规模模型的异构分布式混合训练系统 HETHUB。这是业内首次实现六种不同品牌芯片间的交叉混合训练,且工程化完成度高。据夏立雪介绍,这项技术工程化的初衷是希望能够通过整合更多异构算力,继续推高大模型技术能力的上限,同时通过打通异构芯片生态,持续降低大模型应用落地成本。
他谈道,该系统在构建中面临的两大主要挑战是通信和分布式训练。不同硬件架构的通信库不同,相当于让两个人使用完全不同的语言来配合完成一个大工程;异构卡出于不同的设计理念,会有很多性能差异,适配不同的任务,导致多种不同类型的卡展现出的效率差异会使大规模分布式训练变得低效。
因此,其团队做了很多方面的工作,包括:
1、通信方面,建立通用的集合通信库,实现不同种芯片的高效通信,兼容非常多种类的硬件;
2、提出了基于流水线并行的非均匀拆分方案,解决不同硬件效率不一样的问题,针对自身情况分配最适合的任务;
3、自研混训预测工具,能在训练最开始的阶段就提前预测好每个芯片会发挥什么样的价值,从而找到一个最优的拆分策略,完成整个训练任务在不同卡上形成最高效的配合。
从实际混训的效果来看,无问芯穹做得非常多的组合可达到 70% 以上,算力利用率最高可达到 97.6%,6 种不同组合芯片上的混训做到了千卡规模。