摩尔线程创始人、CEO张建中(图片来源:摩尔线程)
7月4日-6日,2024世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2024)在上海召开。
在WAIC 2024期间,首次参展WAIC的国内 AI 算力方案公司“摩尔线程”,发布实现重要升级的其AI旗舰产品夸娥(KUAE)智算集群解决方案,从当前的千卡级别大幅扩展至万卡规模。
摩尔线程表示,这旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。
同时,摩尔线程还宣布联合中国移动青海公司、中国联通青海公司、北京德道信科集团、中国能源建设股份有限公司总承包公司、桂林华崛大数据科技有限公司构建三个万卡集群项目进行战略签约,以构建国产GPU集群。
摩尔线程创始人、CEO张建中对钛媒体AGI等表示,当下Scaling Law(规律效应)法则在AI大模型行业依然奏效,即为了追求更好的性能,规模做大的同时,算力需求也越来越大,因此,国内百模大战仍在冲击更大的目标。
“在AI主战场,万卡是最低标配。”张建中表示。
据悉,当前国内 AI 大模型热潮持续“狂飙”,而训练模型背后的关键因子离不开GPU(图形处理器),各公司拥有GPU的数量已经成为衡量算力规模的基本依据。而 AI 算力已经成为国力,同时也是经济生产力。
2020年,OpenAI使用约1万块英伟达GPU来训练GPT-3.5模型,当时模型参数量达1750亿;到了2023年,OpenAI推出1.8万亿参数的GPT-4时,市场估测,其已经拥有近3万块英伟达GPU计算卡。如今,OpenAI具有微软提供的十万卡大训练集群和推理产品。
相比OpenAI、谷歌、Meta等国际巨头成批采购几十万张英伟达显卡搭建数据中心集群,国内整体达到万卡集群规模的模型较少,大多数还只能采购几千张计算卡,只有字节等少数头部厂商拥有上万张卡规模的算力集群。
张建中提到,计算卡的数量直接决定了训练一个大模型所用的时间。去年国内“百模大战”开打后,几乎每个月都有新的模型发布。而现在,一家AI大模型公司训练迭代一次大模型的时间已经缩短为两周,超过两周就跟不上同行的速度。
公开信息显示,摩尔线程成立于2020年10月,是一家以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持,创始人、CEO张建中曾担任英伟达全球副总裁、中国区总经理。
2023年12月,基于MTTS4000大模型智算加速卡,摩尔线程推出了以夸娥智算集群为核心的智算中心产品组合,以打造大模型和通用人工智能(AGI)的算力基础设施。
此次发布的摩尔线程夸娥(KUAE)万卡智算集群,以全功能GPU为底座,旨在打造国内领先的、能够承载万卡规模、具备万P级浮点运算能力的国产通用加速计算平台,专为万亿参数级别的复杂大模型训练而设计。
夸娥万卡智算解决方案拥有多个核心特性:具备超大算力,万卡万 P,单集群规模超万卡,浮点运算能力达 10Exa-Flops,GPU 显存总容量达 PB 级,卡间互联总带宽和节点互联总带宽也达每秒 PB 级,实现算力、显存和带宽的系统性协同优化;具有超高稳定性能,月级长稳训练,夸娥万卡集群平均无故障运行时间超 15 天,最长可实现大模型稳定训练 30 天以上,周均训练有效率在 99%以上,得益于自主研发的多级可靠机制;极致优化,MFU 最高可达 60%,通过系统软件、框架、算法等层面的一系列优化实现高效率训练;还是一个全能通用的生态友好平台,计算能力为通用场景设计,可加速不同架构、不同模态的大模型,基于 MUSA 编程语言、兼容 CUDA 能力和自动化迁移工具 Musify,加速新模型迁移,实现生态适配“Instant On”。
眼下,对于AI公司来说,谁有GPU,谁能建智算中心,才能训练性能更强、更大规模的模型技术。
但在张建中看来,智算中心从千卡到万卡,不只是简单的“堆卡”。规模变大的同时,难度也呈指数级倍增——既要实现智算中心扩容,也要兼顾质量。这对厂商而言是一项极其复杂的系统工程。尤其算力利用率与稳定性是行业衡量智算中心质量的两项重要指标。
谈到短期资本和长期的智算中心和企业构建之间的冲突,张建中对钛媒体AGI坦言,这是一个投资回报的问题。目前智算中心投资回报率是5年左右,大家能看得到,根据市场的租金、使用率以及用户愿意付的价钱,这个很正常,而且资本愿意去看5年回报周期,对资本投资来说是很高的,相对来讲是很满意的,相信一定会有很多资金在当中发挥更多的作用。
“对于我们研发一颗卡来说,其实我们卡的研发费用相对美国公司来说还是非常便宜的,我们大概相当于他们的1/10,我们在国内可以得到更好的回报。反而在美国的费用更高,回报周期相对更长,我相信在国内发展潜力是非常巨大的。”张建中表示。
目前,摩尔线程的千卡智算中心的算力利用率已达到50%,未来推动万卡集群智算中心落地时,目标是达到60%的算力利用率,同时保证99%以上的稳定性。这与国际巨头已十分接近,但要达到领先仍存在较大挑战。
张建中表示,“我相信AGI一定会到来。随着各种不同算法进步,真正算力平台应用场景的建设,越来越多的大模型应用场景能得到验证。之前没有万卡集群的时候,只是在千卡上面,有些模型无法训练出来。当万卡建起来,Scaling(扩展性)往上走,准确度、精度、IQ能力都在提升的话,有了实际价值,就会建下一个。这是一个逐步提升的过程,不可能今天我们直接建百万卡集群,在建百万卡集群之前一定有10万卡,在10万卡集群之前,肯定有1万卡的集群,这是一个逐步实现的过程。”
摩尔线程表示,这一里程碑式的进展,树立了国产GPU技术的新标杆,有助于实现国产智算集群计算能力的全新跨越,将为中国人工智能领域技术与应用创新、科研攻坚和产业升级提供坚实可靠的关键基础设施。
“夸娥是一个通用加速的计算平台,我们的目标也是希望通过夸娥智算集群,以规模够大、计算更通用、生态兼容好的加速计算平台,为美好世界加速。我们希望摩尔线程的全功能GPU,能够服务产业能够为人类造福,把好的技术、好的算力应用到对人类和社会更加友好的应用当中,也希望我们的产品为国家解决算力短缺的问题,也希望在座每一位合作伙伴与摩尔线程携手,基于夸娥智算集群,真正做到万卡一芯、万众一芯,打造美好世界。”张建中在演讲结尾表示。
(作者|林志佳,编辑|胡润峰)