在今晨开幕的AMD Advancing AI 2025主题演讲上,AMD正式发布了全新的,基于CDNA 4架构的Instinct MI350系列GPU。AMD表示,新架构在计算密度、能效比和内存带宽方面相比上代产品有显著的优化,同时支持灵活的硬件分区和开放 的生态系统,为生成式AI和大语言模型训练与推理带来突破性的性能提升。
AMD表示,CDNA 4架构的优点可以总结为4个部分,首先是针对生成式AI (GenAI) 和大型语言模型 (LLM) 配置的增强型矩阵引擎,同时为实现混合精度运算带来了新数据格式的支持,增强的Infinity Fabric总线以及先进的封装互连技术则为性能提升打下坚实的基础,在这三点基础上还实现了能效的进一步提升。
基于CDNA 4架构打造的Instinct MI350系列GPU其基于迭代升级后的芯片堆叠封装工艺打造,采用N3P工艺的加速器复合核心(XCD)通过COWOS-S封装技术堆叠在采用N6工艺的I/O核心(IOD) 之上,3D混合架构为带来了高性能密度和高能效比,IOD-IOD互连以及HBM3E显存的集成则给予2.5D架构打造。
AMD Instinct MI350系列GPU包含有8个XCD模块,每个XCD模块32组计算单元,共计256组,1024个矩阵核心,每个XCD配置2MB L2缓存。IOD基于2个台积电N6工艺核心构成,提供128通道HBM3E显存接口与256MB容量的AMD Infinity缓存;2个HBM3E显存采用8堆栈结构,每个堆栈为12层堆叠的36GB,数据频率为8Gbps,可提供8TB/s的显存带宽,总计带来了288GB的高容量与8TB/s的高读取带宽,可以在对显存带宽敏感的应用中,带来明显的使用体验提升。内部所用的Infinity Fabric AP互联带宽达到5.5TB/s,外部连接则基于1075GB/s带宽的第四代Infinity Fabric总线与128GB/s带宽的PCI-E 5.0接口。
Instinct MI350系列GPU在数据格式支持与性能上相比前代产品有稳步提升,首先是实现了FP6与FP4的支持,这是Instinct MI300系列GPU无法实现的,FP6与FP4的每CU运算速率是FP8的2倍;在FP16/BF16/FP8/FP8/INT8/INT4的运行速度上相比上代产品也是有明显的提升,其中FP16/BF16数据吞吐量达到4K FLOPS/每时钟/每CU,FP8数据吞吐量则达到8K FLOPs/每时钟/每CU,可以达到相当于前代产品1.9倍的理论运算峰值。
Instinct MI350系列可以支持多达8个空间分区,以实现GPU利用率的最大化,在SPX+NPS1模式下可以运行最高520B规模的AI模型,在CPX+NPS2模式下则支持8组Llama 3.1 70B模型实例。
专为AI运算的GPU大都是以机架阵列的形式登场,Instinct MI350系列自然不会例外。采用第五代EPYC系列处理器、Instinct MI350系列GPU以及AMD Pollara NIC网卡的机架式阵列系统完全基于开放式标准打造,提供有DLC液冷方案与AC风冷方案可选,可满足不同使用需求的客户。
基于DLC液冷的MI355X方案整合有128个Instinct MI355X GPU,拥有36TB HBM3E显存,可提供644FP FP16/BF16、1.28EF FP8、2.57EF FP6/FP4运算性能;基于AC风冷的MI350X方案整合有64个Instinct MI355X GPU,拥有18TB HBM3E显存,可提供295FP FP16/BF16、590PF FP8、1.18EF FP6/FP4运算性能。
AMD也带来了下一代Instinct MI400系列GPU的核心规格预览,该系列预计将于2026年正式推出。Instinct MI400将配备高达432GB的HBM4高带宽显存,实现19.6TB/s的显存带宽与每卡300GB/s的扩展互联带宽。在AI运算能力方面,Instinct MI400系列提供高达40 PFLOPS(FP4精度)和20 PFLOPS(FP8精度)的峰值性能,进一步巩固AMD在生成式AI和高性能计算领域的技术领先地位,延续MI300X与MI325X平台在能效、规模与灵活性方面的优势。