3 min read
[AI 小众新闻]

[AI小新闻快报] 仅需3.9秒启动!70B模型也能在24GB <a href="https://www.amazon.cn/s?k=NVIDIA%20RTX%204070&tag=harushark-22" rel="nofollow sponsored">GPU</a>上运行的超轻量推理引擎「ZSE」发布


- **极致的内存效率**: 通过独特的「zStream」技术,使原本需要140GB的70B模型能够在24GB的<a href="https://www.amazon.cn/s?k=NVIDIA%20RTX%204070&tag=harushark-22" rel="nofollow sponsored">GPU</a>上运行(估算)。...

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 仅需3.9秒启动!70B模型也能在24GB GPU上运行的超轻量推理引擎「ZSE」发布

📰 新闻概述

  • 极致的内存效率: 通过独特的「zStream」技术,使原本需要140GB的70B模型能够在24GB的GPU上运行(估算)。
  • 惊人的冷启动速度: 使用.zse格式,7B模型启动仅需3.9秒,而32B模型则为21.4秒,速度惊人。
  • 智能推荐功能: 「zOrchestrator」根据当前的「空闲内存」而非总内存,提出最佳效率模式的建议。

💡 重要要点

  • 自定义CUDA内核: 配备独特的「zAttention」,支持paged、flash和稀疏注意力,保持高吞吐量。
  • 先进的量化技术: 采用INT2-8的混合精度量化「zQuantize」和节省4倍内存的量化KV缓存「zKV」。
  • OpenAI兼容API: 配备基于FastAPI的服务器功能,能够轻松连接和使用现有的OpenAI库。

🦈 鲨鱼的视角(策展者观点)

这内存效率简直是「捕食者级」的敏锐!特别是「zStream」技术结合层流式处理和异步预取,强行突破了VRAM的限制,真是令人惊叹。与现有的bitsandbytes相比,启动速度快了11.6倍,对频繁切换模型的开发者来说简直是神技!而且能根据空闲内存告诉你「现在可以运行这个哦」的智能设计,必定会大幅降低本地LLM运作的门槛!

🚀 接下来会怎样?

在24GB的消费级GPU上,也能以实用的速度处理70B级的巨大智能。这将进一步加速本地高级AI代理的开发。

💬 鲨鱼的简评

启动3.9秒比鲨鱼冲刺还快!?未来将是巨型模型也能快速运行的时代!🦈🔥

📚 术语解释

  • zStream: 通过层流式处理和异步预取技术,执行超出VRAM容量的模型。

  • zAttention: 支持paged和稀疏注意力的ZSE独特自定义CUDA内核。

  • 冷启动: 模型从未加载到内存状态开始,直到输出第一个token的启动过程。

  • 信息来源: Show HN: ZSE – 开源LLM推理引擎,冷启动仅需3.9秒

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈