
IT之家 11 月 5 日讯息,华为本日文书,该公司针对 AI 推理加快的要道技巧 —— UCM(Unified Cache Manager)推理牵挂数据科罚考究文书开源。
UCM 以 KV Cache 多级缓存和推理牵挂科罚为中心,通过推理框架、算力、存储的三层协同,声称可破解长序列推理效果低、老本高的艰巨,为企业提供更优的 AI 推理体验。

UCM 交融了多类型缓存加快算法器具,可分级科罚在推理过程中产生的 KV Cache 牵挂数据。UCM 架构包含多个协同使命的要道功能模块,具体如下:
UCM 寥落化模块(UcmSparseBase):兼容多种寥落算法的结伙基类,负责寥落 KV Cache Block 的卸载、加载与缱绻,结束“零感知”插拔式寥落化。在不影响举座推理经过的前提下,概况机动适配不同寥落算法以进步推理效果。
寥落化 KV 科罚器(SparseKVManager):面向算法级定制的 KV Cache Block 分拨总控器,各寥落算法以多态子类时势将自因素配逻辑注入框架,结束不同寥落算法计谋与推理引擎解耦,欢欣相反化推理场景需求。
KV Cache 存储组件(UcmKVStoreBase):负责提供与外部存储通讯的通用接口。该组件守旧寥落算法与存储后端解耦,可无缝对接自便存储系统,同期守旧前缀缓存,为数据存储提供了机动各类的接管。
UCM 衔接器(UC Connector):桥接 KV Cache 存储组件与推理引擎,保险数据在不同组件之间的高效传输,结束高可靠的前缀缓存智商。
▲ UCM 家具架构基于以上架构,UCM 现在具备四大约道智商:寥落详实力、前缀缓存、预填充卸载、异构 PD 解耦,结束首 Token 时延最高缩小 90%,系统混沌最大进步 22 倍,并达到 10 倍级落魄文窗口彭胀,权贵进步了 AI 推感性能。
UCM 已在 ModelEngine 社区盛开基础框架与器具链,建立者可通过社区获得 UCM 源代码与技巧文档。IT之家附开源地址:
GitCode:https://gitcode.com/ModelEngine/unified-cache-management
Github:https://github.com/ModelEngine-Group/unified-cache-managementj9九游会信誉至上
告白声明:文内含有的对外跳转流畅(包括不限于超流畅、二维码、口令等时势),用于传递更多信息,检朴甄选期间,放浪仅供参考,IT之家通盘著作均包含本声明。 ]article_adlist--> 声明:新浪网独家稿件,未经授权不容转载。 -->