[AIマイナーニュース速報] 爆速3.9秒起動!70Bモデルも24GB GPUで動く超軽量推論エンジン「ZSE」が公開
📰 ニュース概要
- メモリ効率を極限まで追求: 独自の「zStream」技術により、本来140GB必要な70Bモデルを24GBのGPUで実行可能にする(推定)。
- 驚異のコールドスタート速度: .zseフォーマットを使用することで、7Bモデルで3.9秒、32Bモデルで21.4秒という爆速の起動時間を実現。
- インテリジェントな推奨機能: 「zOrchestrator」が総メモリではなく、現在の「空きメモリ」に基づいて最適な効率モードを提案する。
💡 重要なポイント
- カスタムCUDAカーネル: paged、flash、sparse attentionに対応した独自の「zAttention」を搭載し、高いスループットを維持。
- 高度な量子化技術: INT2-8の混合精度量子化「zQuantize」や、メモリを4倍節約する量子化KVキャッシュ「zKV」を採用。
- OpenAI互換API: FastAPIベースのサーバー機能を備え、既存のOpenAIライブラリから簡単に接続して利用可能。
🦈 サメの眼(キュレーターの視点)
このメモリ効率はまさに「捕食者級」の鋭さだサメ!特に「zStream」によるレイヤーストリーミングと非同期プリフェッチの組み合わせが、VRAMの壁を強引に突き破っているのが凄まじいサメ。既存のbitsandbytesと比較して起動速度が11.6倍も速いのは、頻繁にモデルを切り替える開発者にとって神機能だと思うサメ。空きメモリを見て「今これなら動かせるよ」と教えてくれるオーケストレーターの親切設計も、ローカルLLM運用のハードルを劇的に下げてくれるはずだサメ!
🚀 これからどうなる?
24GB程度のコンシューマー向けGPUでも、70Bクラスの巨大な知能を実用的な速度で扱えるようになる。これにより、ローカル環境での高度なAIエージェント開発がさらに加速するだろう。
💬 はるサメ視点の一言
起動3.9秒はサメの突進より速いかも!?これからは巨大モデルもサクサク動かす時代だサメ!🦈🔥
📚 用語解説
-
zStream: レイヤーのストリーミングと非同期プリフェッチを行い、VRAM容量を超えるモデルを実行する技術。
-
zAttention: ページングやスパース(疎)なアテンションに対応した、ZSE独自のカスタムCUDAカーネル。
-
コールドスタート: モデルがメモリにロードされていない状態から、最初のトークンが出力されるまでの起動プロセスのこと。
-
情報元: Show HN: ZSE – Open-source LLM inference engine with 3.9s cold starts