AMD正式发布Instinct MI350加速器推理性能提升35倍-PChome

在今晨开幕的AMD Advancing AI 2025主题演讲上，AMD正式发布了全新的，基于CDNA 4架构的Instinct MI350系列GPU。AMD表示，新架构在计算密度、能效比和内存带宽方面相比上代产品有显著的优化，同时支持灵活的硬件分区和开放的生态系统，为生成式AI和大语言模型训练与推理带来突破性的性能提升。

AMD表示，CDNA 4架构的优点可以总结为4个部分，首先是针对生成式AI (GenAI) 和大型语言模型 (LLM) 配置的增强型矩阵引擎，同时为实现混合精度运算带来了新数据格式的支持，增强的Infinity Fabric总线以及先进的封装互连技术则为性能提升打下坚实的基础，在这三点基础上还实现了能效的进一步提升。

基于CDNA 4架构打造的Instinct MI350系列GPU其基于迭代升级后的芯片堆叠封装工艺打造，采用N3P工艺的加速器复合核心(XCD)通过COWOS-S封装技术堆叠在采用N6工艺的I/O核心(IOD) 之上，3D混合架构为带来了高性能密度和高能效比，IOD-IOD互连以及HBM3E显存的集成则给予2.5D架构打造。

AMD Instinct MI350系列GPU包含有8个XCD模块，每个XCD模块32组计算单元，共计256组，1024个矩阵核心，每个XCD配置2MB L2缓存。IOD基于2个台积电N6工艺核心构成，提供128通道HBM3E显存接口与256MB容量的AMD Infinity缓存；2个HBM3E显存采用8堆栈结构，每个堆栈为12层堆叠的36GB，数据频率为8Gbps，可提供8TB/s的显存带宽，总计带来了288GB的高容量与8TB/s的高读取带宽，可以在对显存带宽敏感的应用中，带来明显的使用体验提升。内部所用的Infinity Fabric AP互联带宽达到5.5TB/s，外部连接则基于1075GB/s带宽的第四代Infinity Fabric总线与128GB/s带宽的PCI-E 5.0接口。

Instinct MI350系列GPU在数据格式支持与性能上相比前代产品有稳步提升，首先是实现了FP6与FP4的支持，这是Instinct MI300系列GPU无法实现的，FP6与FP4的每CU运算速率是FP8的2倍；在FP16/BF16/FP8/FP8/INT8/INT4的运行速度上相比上代产品也是有明显的提升，其中FP16/BF16数据吞吐量达到4K FLOPS/每时钟/每CU，FP8数据吞吐量则达到8K FLOPs/每时钟/每CU，可以达到相当于前代产品1.9倍的理论运算峰值。

Instinct MI350系列可以支持多达8个空间分区，以实现GPU利用率的最大化，在SPX+NPS1模式下可以运行最高520B规模的AI模型，在CPX+NPS2模式下则支持8组Llama 3.1 70B模型实例。

专为AI运算的GPU大都是以机架阵列的形式登场，Instinct MI350系列自然不会例外。采用第五代EPYC系列处理器、Instinct MI350系列GPU以及AMD Pollara NIC网卡的机架式阵列系统完全基于开放式标准打造，提供有DLC液冷方案与AC风冷方案可选，可满足不同使用需求的客户。

基于DLC液冷的MI355X方案整合有128个Instinct MI355X GPU，拥有36TB HBM3E显存，可提供644FP FP16/BF16、1.28EF FP8、2.57EF FP6/FP4运算性能；基于AC风冷的MI350X方案整合有64个Instinct MI355X GPU，拥有18TB HBM3E显存，可提供295FP FP16/BF16、590PF FP8、1.18EF FP6/FP4运算性能。

AMD也带来了下一代Instinct MI400系列GPU的核心规格预览，该系列预计将于2026年正式推出。Instinct MI400将配备高达432GB的HBM4高带宽显存，实现19.6TB/s的显存带宽与每卡300GB/s的扩展互联带宽。在AI运算能力方面，Instinct MI400系列提供高达40 PFLOPS（FP4精度）和20 PFLOPS（FP8精度）的峰值性能，进一步巩固AMD在生成式AI和高性能计算领域的技术领先地位，延续MI300X与MI325X平台在能效、规模与灵活性方面的优势。

AMD正式发布Instinct MI350加速器推理性能提升35倍

每日精选

2025双十一数码好物推荐

Q3全球LCD电视面板出货量上涨

外卖平台用AI生成假门面图片

苹果国行版AI要跳票iOS 26.4