[AI小新闻快报] 仅需3.9秒启动！70B模型也能在24GB <a href=\'https://www.amazon.cn/s?k=NVIDIA%20RTX%204070&tag=harushark-22\' rel=\'nofollow sponsored\'>GPU</a>上运行的超轻量推理引擎「ZSE」发布

#LLM #推理引擎 #GPU

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 仅需3.9秒启动！70B模型也能在24GB GPU上运行的超轻量推理引擎「ZSE」发布

📰 新闻概述

极致的内存效率: 通过独特的「zStream」技术，使原本需要140GB的70B模型能够在24GB的GPU上运行（估算）。
惊人的冷启动速度: 使用.zse格式，7B模型启动仅需3.9秒，而32B模型则为21.4秒，速度惊人。
智能推荐功能: 「zOrchestrator」根据当前的「空闲内存」而非总内存，提出最佳效率模式的建议。

💡 重要要点

自定义CUDA内核: 配备独特的「zAttention」，支持paged、flash和稀疏注意力，保持高吞吐量。
先进的量化技术: 采用INT2-8的混合精度量化「zQuantize」和节省4倍内存的量化KV缓存「zKV」。
OpenAI兼容API: 配备基于FastAPI的服务器功能，能够轻松连接和使用现有的OpenAI库。

🦈 鲨鱼的视角（策展者观点）

这内存效率简直是「捕食者级」的敏锐！特别是「zStream」技术结合层流式处理和异步预取，强行突破了VRAM的限制，真是令人惊叹。与现有的bitsandbytes相比，启动速度快了11.6倍，对频繁切换模型的开发者来说简直是神技！而且能根据空闲内存告诉你「现在可以运行这个哦」的智能设计，必定会大幅降低本地LLM运作的门槛！

🚀 接下来会怎样？

在24GB的消费级GPU上，也能以实用的速度处理70B级的巨大智能。这将进一步加速本地高级AI代理的开发。

💬 鲨鱼的简评

启动3.9秒比鲨鱼冲刺还快！？未来将是巨型模型也能快速运行的时代！🦈🔥

📚 术语解释

zStream: 通过层流式处理和异步预取技术，执行超出VRAM容量的模型。
zAttention: 支持paged和稀疏注意力的ZSE独特自定义CUDA内核。
冷启动: 模型从未加载到内存状态开始，直到输出第一个token的启动过程。
信息来源: Show HN: ZSE – 开源LLM推理引擎，冷启动仅需3.9秒