企业中心> 信息化> 专访

Arm Lumex CSS平台:重塑端侧AI计算的架构与体验

PChome | 编辑:单亚凯
原创
2025-09-17 11:18:50

【PChome概述】Arm Unlocked 2025 AI技术峰会上,Arm正式推出了Lumex CSS平台,这是一款面向旗舰级智能手机与下一代PC的计算子系统平台。不仅包含高性能CPU与GPU,还在系统互联、内存子系统、功耗管理等方面提供完整的参考实现。Lumex CSS 平台的推出不仅是一次产品迭代,更是Arm在AI时代的重要战略布局。

人工智能正以前所未有的速度重塑计算的边界。随着大模型与多模态应用的普及,AI已从数据中心逐步走向终端设备,智能手机、PC、汽车乃至物联网节点,都开始承担起越来越复杂的推理与交互任务。这一趋势对计算架构提出了全新要求:不仅需要极致性能和能效,还必须在延迟、隐私、安全以及跨场景的灵活性上提供突破。

在不久前举行的Arm Unlocked 2025 AI技术峰会上,Arm正式推出了Lumex CSS平台,这是一款面向旗舰级智能手机与下一代PC的计算子系统平台。该平台整合了最新一代Armv9.3 CPU集群、Mali GPU、系统IP、KleidiAI软件工具及集成库,并在物理实现上针对3nm工艺进行了深度优化。其核心创新是引入了第二代可伸缩矩阵扩展(SME2)技术,全面释放端侧AI的潜能。正如Arm高级副总裁兼终端事业部总经理Chris Bergey在峰会上所言:“AI的普及正从云端扩展到无处不在的终端设备,Arm的使命是为合作伙伴提供统一而高效的计算基石,让他们能够在瞬息万变的市场中快速创新。”

Arm Lumex CSS:面向AI优先时代的系统化解决方案

与过去单点式的IP授权不同,Lumex CSS体现了Arm的“平台优先”战略。这一平台不仅包含高性能CPU与GPU,还在系统互联、内存子系统、功耗管理等方面提供完整的参考实现。开发者既可以采用Arm交付的标准平台,也可以在RTL层面进行定制,以适配不同的市场需求。

Arm执行副总裁、终端事业部首席产品官James McNiven在媒体交流中强调: “Arm Lumex CSS平台不只是硬件组合,而是一个面向‘AI优先’时代的整体解决方案。我们希望合作伙伴在使用时无需重复解决底层问题,而是能把更多精力放在差异化体验和应用创新上。”

这一思路意味着,从旗舰手机到轻薄笔记本,厂商均可以在Arm Lumex CSS平台上快速构建产品,并依赖KleidiAI等工具链实现跨框架、跨系统的无缝AI加速。

·CPU与GPU的突破:性能与能效的双重飞跃

Arm Lumex CSS的CPU集群提供几个层级选择——C1-Ultra、C1-Premium、C1-Pro和C1-Nano,均基于最新Armv9.3架构并全面支持SME2指令集。搭载SME2的Arm C1 CPU集群在实际场景中可实现高达5倍的AI性能提升,在Whisper Base上处理语音工作负载时,延迟降低4.7倍,在Stability AI Stable Audio模型上生成音频,速度提升2.8倍。其中,Arm C1 Ultra专为要求严苛的AI任务和工作负载而设计,的其单线程峰值性能较上一代Arm Cortex-X925 CPU,提升高达25%;Arm C1-Pro则在视频播放、网页浏览及社交媒体用例中表现出色在同等性能下较Cortex-A725的能效提升多达12%;Arm C1-Nano在最小面积占用的条件下,将 Arm C1 系列 CPU 的优势集于一体,成为可穿戴设备和紧凑型消费类电子设备的理想之选。

这一改进对于端侧大模型尤为关键。例如支付宝在vivo新一代旗舰机上的测试显示,在SME2的加持下,大语言模型推理的预填充与解码阶段性能分别提升超过40%和25%,显著缩短了用户交互等待时间。

Arm终端事业部产品管理高级总监Ronan Naughton在解释SME2的设计初衷时表示:“我们看到越来越多AI任务需要在终端完成,不仅为了隐私与响应速度,也因为成本和能耗的考虑。SME2的目标就是让CPU在执行矩阵计算时不再是瓶颈,从而把很多过去只能依赖NPU的任务带回到更通用的处理单元上。”

在GPU方面,Arm Lumex CSS搭载了Mali G1系列 GPU(包括G1-Ultra、G1-Premium和G1-Pro)。Mali G1-Ultra引入了新一代Arm光线追踪单元RTUv2,与上一代相比,光追性能提升达两倍,实时光照、阴影和反射效果更逼真,足以支撑桌面级游戏体验。同时Mali G1-Ulra GPU在AI与机器学习网络上的推理速度比Immortalis-G925快20%,并在图像增强、超分辨率和帧生成等任务上表现突出。对玩家而言,这意味着即使在移动端,也能体验到如《原神》或《堡垒之夜》这类大型3D游戏的沉浸式画面。

CPU、GPU与NPU在Arm Lumex CSS平台中的异构协同是另一亮点:CPU负责低延迟的小模型任务,NPU处理大规模推理,GPU则在图形与多媒体相关的AI计算中发挥作用。通过共享内存与高效互联,这些计算单元能够根据任务类型动态分工,实现能效与性能的最优平衡。

SME2:端侧AI的关键引擎

SME2是此次Arm Lumex CSS平台中引入的明星技术。它不仅扩展了向量和矩阵运算能力,还针对内存访问与带宽进行了优化,在同等功耗下可提供2–6 TOPS的算力。与上一代SME向下兼容的同时,它在指令灵活性和执行效率上大幅增强,使得语音识别、图像预处理、实时翻译等高频AI任务的延迟大幅降低。

生态伙伴已经给出了积极反馈。vivo的VCAP平台已全面支持SME2指令集,开启SME2的硬件,在全局离线翻译场景中,可实现额外20%的性能提升。支付宝、阿里巴巴、腾讯和三星等公司也纷纷采用 SME2技术,验证其在大模型和多模态任务中的价值。

开发者友好的软件生态

硬件创新只有与软件生态结合,才能真正转化为用户体验。Arm Lumex CSS搭载的KleidiAI工具链正是这种衔接的关键。它支持PyTorch、ONNX、MNN、LiteRT等主流框架,开发者几乎无需修改代码,就能启用SME2技术以获得显著加速。更重要的是,KleidiAI提供了跨平台兼容,覆盖Android、Windows on Arm、iOS等系统,为开发者降低了适配成本。

Naughton在介绍软件栈时补充道:“我们特别关注开发者体验。只有当加速是‘自动获得’的,而不是‘额外学习’的,生态才能真正繁荣。KleidiAI的目标就是让AI框架和模型能够无缝迁移到Arm的最新硬件上。”

这一设计大大降低了中小开发者进入AI领域的门槛,使他们能够快速部署新功能,并在多设备上保持一致的表现。

AI应用场景与落地

技术突破的价值,最终体现在实际应用中。Arm Lumex CSS的落地案例已经覆盖了多个高频场景:

*实时交互:在Arm“智能瑜伽教练”的演示中,文本转语音生成速度提升2.4倍,使指导更加自然流畅。

*金融应用:在 Arm、支付宝与 vivo 的三方合作下,LLM的交互响应时间缩短40%,为用户带来更顺畅的支付与客服体验。

*电商场景:淘宝商品识别速度大幅提升,进一步优化搜索与推荐效率。

端侧AI的优势在这些应用中展现得淋漓尽致:低延迟保证即时反馈,本地计算提升隐私保护,同时无需持续联网即可运行复杂模型。这些特性正是未来个人助手、实时翻译和图像处理等应用的核心需求。

网易伏羲实验室在游戏领域的探索也展示了端侧AI的想象空间。从手游智能NPC到语音AI队友,AI已逐步改变玩家的互动方式。伏羲实验室与Arm合作优化端侧AI计算效能,为“游戏+AI”模式提供了坚实的算力基础。

战略意义与未来展望

Lumex CSS 平台的推出不仅是一次产品迭代,更是Arm在AI时代的重要战略布局。通过平台化交付,Arm为合作伙伴降低了研发复杂度和规模化风险,加快了差异化产品的上市周期。

James McNiven总结道:“我们希望Arm Lumex CSS成为生态创新的加速器。帮助合作伙伴快速构建并部署AI体验。”

从行业角度看,端侧AI的普及将减少对云端的依赖,缓解网络与能源压力,同时赋能开发者在本地提供更安全、更个性化的服务。Arm预测,到2030年,SME/SME2将在超过30亿台设备中实现部署,新增算力突破100亿TOPS。

在中国市场,Arm Lumex CSS的意义尤为突出。本土伙伴如vivo、支付宝和网易伏羲,已经通过与Arm的合作探索出一条独特的发展路径。依托庞大的用户规模和多样的场景,中国有望在端侧AI创新与落地方面继续走在全球前列。

与此同时,Arm也将“平台思路”扩展至更多领域:面向基础设施的Neoverse,面向PC的Niva,面向汽车的Zena,以及面向物联网的Orbis。无论是个人计算还是智能出行,Arm的愿景是为AI计算提供统一而高效的底座。

正如Chris Bergey在峰会总结中所说:“AI计算的未来将由平台驱动。我们坚信,只有硬件、软件与生态的紧密协作,才能真正释放AI的潜能。Arm将持续携手全球与中国的合作伙伴,共同定义并推动这一未来。”

每日精选

2025双十一数码好物推荐

2025-11-07

外卖平台用AI生成假门面图片

2025-11-03

苹果国行版AI要跳票iOS 26.4

2025-11-03

骗子用“I0086”冒充10086

2025-11-03