《星岛》记者 周昊 实习记者 李誉 2025年8月12日,华为联合中国银联共同公布AI推理领域最新应用成果——AI推理创新技术UCM(推理记忆数据管理器)。该技术有望降低我国AI推理对HBM(高带宽内存)技术的依赖,提升AI大模型推理性能,完善AI推理生态体系,为AI产业突破“内存墙”限制提供创新解决方案。 华为方面表示,作为一款以KV Cache为中心的推理加速套件,UCM融合了多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,扩大推理上下文窗口,以实现高吞吐、低时延的推理体验,降低每Token推理成本。 随着AI产业从“追求模型能力极限”转向“追求推理体验优化”,推理体验直接关系到用户满意度和商业落地能力,已成为衡量模型价值的核心标准。 中信建投在2025世界人工智能大会期间发布的白皮书指出,AI正从训练向推理的结构性跃迁。以国内某头部互联网公司为例,每三个月Token消耗接近翻一倍,5月底为16.4万亿Token。在此背景下,AI推理体验已成为行业落地的核心竞争力。 当前,国外主流大模型的单用户输出速度已达到200 Tokens/s(时延 5ms),而我国普遍小于60Tokens/s(时延50 - 100ms)。推理速度的差距直接影响智能交互、金融问答等场景下,用户对响应速度、答案准确性和复杂问题处理能力的体验。 造成这一差距的重要原因之一在于底层算力和内存技术的限制。HBM作为GPU等高性能处理器提供高速数据访问的关键技术,随着GPU算力提升,AI产业对高效内存的需求持续增长。 2024年,美国出台禁令,禁止向中国出口HBM2E及以上型号芯片,这一限制直接制约了我国算力基础和AI研发的进程,进一步加剧了大模型推理性能上的差距。 在AI技术方面,华为自2018年推出首款昇腾系列AI芯片以来,已联合超1.1万家合作伙伴,服务覆盖全球5600多家金融机构。其核心AI计算架构CANN已实现全面开源,推动AI技术的普及与创新,加速AI应用在各行业的落地和生态繁荣。 (责任编辑:admin) |