华为正式发布AI推理创新技术UCM(推理记忆数据管理器)。作为一款以KV Cache为中心的推理加速套件,UCM融合多类型缓存加速算法工具,分级管理推理过程中产生的KV Cache记忆数据,可扩大推理上下文窗口,实现高吞吐及低时延的推理体验,降低每Token推理成本。
该技术已率先在中国银联「客户之声」、「营销策划」及「办公助手」三大业务场景中,开展智慧金融AI推理加速应用试点,并已取得成果。
据《证券时报》报道,华为计划9月正式开源UCM,届时将在魔擎社区首发,後续逐步贡献给业界主流推理引擎社区,并共享给业内所有Share Everything(共享架构)储存厂商和生态夥伴。(ta/da)
AASTOCKS新闻