华为发布全新AI推理创新技术UCM | 速递快报

《星岛》记者周昊实习记者李誉

2025年8月12日，华为联合中国银联共同公布AI推理领域最新应用成果——AI推理创新技术UCM（推理记忆数据管理器）。该技术有望降低我国AI推理对HBM（高带宽内存）技术的依赖，提升AI大模型推理性能，完善AI推理生态体系，为AI产业突破“内存墙”限制提供创新解决方案。

华为方面表示，作为一款以KV Cache为中心的推理加速套件，UCM融合了多类型缓存加速算法工具，分级管理推理过程中产生的KV Cache记忆数据，扩大推理上下文窗口，以实现高吞吐、低时延的推理体验，降低每Token推理成本。

随着AI产业从“追求模型能力极限”转向“追求推理体验优化”，推理体验直接关系到用户满意度和商业落地能力，已成为衡量模型价值的核心标准。

中信建投在2025世界人工智能大会期间发布的白皮书指出，AI正从训练向推理的结构性跃迁。以国内某头部互联网公司为例，每三个月Token消耗接近翻一倍，5月底为16.4万亿Token。在此背景下，AI推理体验已成为行业落地的核心竞争力。

当前，国外主流大模型的单用户输出速度已达到200 Tokens/s（时延 5ms），而我国普遍小于60Tokens/s（时延50 - 100ms）。推理速度的差距直接影响智能交互、金融问答等场景下，用户对响应速度、答案准确性和复杂问题处理能力的体验。

造成这一差距的重要原因之一在于底层算力和内存技术的限制。HBM作为GPU等高性能处理器提供高速数据访问的关键技术，随着GPU算力提升，AI产业对高效内存的需求持续增长。

2024年，美国出台禁令，禁止向中国出口HBM2E及以上型号芯片，这一限制直接制约了我国算力基础和AI研发的进程，进一步加剧了大模型推理性能上的差距。

在AI技术方面，华为自2018年推出首款昇腾系列AI芯片以来，已联合超1.1万家合作伙伴，服务覆盖全球5600多家金融机构。其核心AI计算架构CANN已实现全面开源，推动AI技术的普及与创新，加速AI应用在各行业的落地和生态繁荣。

(责任编辑：admin)