摩尔线程张建中:智算集群将做到50万卡、100万卡规模

摩尔线程张建中:智算集群将做到50万卡、100万卡规模

科创板上市后,“国产GPU第一股”摩尔线程(688795.SH)于12月20日召开了首届MUSA开发者大会,公布了最新的GPU架构以及基于该架构的三款芯片。

摩尔线程被认为是国内GPU公司中最像英伟达的一家,其产品结构与英伟达存在一定的相似性。与英伟达类似,摩尔线程在2022年至2024年期间每年更新一个GPU架构。2022年推出春晓架构,代表产品包括面向云计算的第一代AI智算板卡S3000;2023年发布曲院架构,对应第一代训推一体智算板卡S4000;2024年发布平湖架构,并推出基于该架构的板卡S5000。

本次大会上,摩尔线程推出了全新架构花港,其算力密度较前代提升50%,支持从FP4到FP64的全精度计算,能够支持规模超过十万卡的智算集群扩展,并内置AI生成式渲染架构。基于该架构推出的三款新芯片分别为华山、庐山和长江,涵盖AI训推一体芯片、图形渲染芯片及系统级芯片(SoC)。

业界普遍通过支持低精度及混合精度计算以提升计算效率。摩尔线程的AI智算板卡支持的计算精度范围也在不断扩大:上一代板卡S5000开始支持FP8精度,而新一代华山芯片则首次支持FP4。值得一提的是,英伟达现行主力芯片Blackwell也支持FP4精度计算。

从算力表现来看,摩尔线程此前公开了部分AI智算板卡的性能数据。S4000板卡在FP32、TF32、FP16及INT8精度下的算力分别为25 TFLOPS、49 TFLOPS、98 TFLOPS和196 TOPS,最大功耗为450W。对比2020年英伟达推出的A100 80GB PCIe版本,其算力分别为19.5 TFLOPS、156 TFLOPS、312 TFLOPS和624 TOPS,最大功耗300W。可见,在部分计算精度下,S4000的算力和功耗表现尚不及A100。

对于上一代板卡S5000的具体性能,此前并未公开数据。在此次开发者大会上,摩尔线程创始人兼董事长兼CEO张建中透露,S5000在DeepSeek-R1全量模型分布式推理场景中的Prefill Only和Decode单卡吞吐量,分别是H20等常见芯片的约2.5倍和1.3倍。新一代华山芯片的浮点计算能力介于英伟达Blackwell和Hopper之间,访存带宽接近Blackwell,而高速互联带宽则介于Hopper和Blackwell之间。

在集群规模方面,摩尔线程的AI智算板卡支持规模不断提升。此次公司推出了万卡智算集群。张建中表示,2024年摩尔线程将推出第一代千卡集群,今年已达到1万卡规模,未来计划扩展至10万卡、50万卡乃至100万卡规模。

摩尔线程MUSA开发者大会现场

张建中指出,万卡智算集群面临的工程挑战主要来自超大规模集群的供电与液冷散热、超大规模互联组网与通信、集群训练的有效算力、训练稳定性与可用性,以及模型训练的精度与效果测评等方面。大模型训练的发展趋势包括:模型参数规模迈向万亿级,训练集群规模迈向10万卡,训练精度从FP16逐渐提升至FP8甚至FP4。未来的关键难题涵盖实现高效并行训练、低精度FP8/FP4训练及高性能通信等。

此外,摩尔线程还推出了具身智能仿真训练平台和AI算力笔记本MTT AIBOOK,进一步拓展了AI生态布局。

摩尔线程于12月5日在科创板上市,发行价为114.28元/股,随后股价波动显著。12月11日收盘价一度突破900元/股,随后有所回调,12月19日收盘价为664.1元/股。公司目前尚未盈利,截至今年6月底,累计未弥补亏损达到16亿元。摩尔线程预计将在2027年实现合并报表盈利,但相关前瞻性信息仍具有不确定性。

https://finance.sina.com.cn/tech/roll/2025-12-20/doc-inhcmsti6694413.shtml

参考资料

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Sitemap Index