1.58位革命！「Ternary Bonsai」登场。8B模型仅需1.75GB运行

#1.58-bit #PrismML #设备端AI

※この記事はアフィリエイト広告を含みます

1.58位革命！「Ternary Bonsai」登场。8B模型仅需1.75GB运行

📰 新闻概述

采用1.58位（三值）表示的新模型: PrismML发布了「Ternary Bonsai」系列（8B、4B、1.7B）。通过将权重限制为{-1, 0, +1}的三种值，实现了令人惊叹的内存节省，约为标准16位模型的9倍。
极致压缩与高精度并存: 与前代1位模型相比，平均基准分数提高了5点。8B模型（1.75GB）记录了平均75.5分，性能逼近体积超过10倍的Qwen3 8B。
在Apple设备上实现超快速本地运行: 在M4 Pro芯片上实现了82 toks/sec的高速吞吐量，在iPhone 17 Pro Max上达到了27 toks/sec。能源效率也提高了3到4倍。

💡 重要要点

“无退路”的完全量子化: 从嵌入、注意力机制、MLP到LM头，在整个网络中始终使用1.58位表示，没有在某些部分妥协以保留高精度，真正实现了三值模型。
按组量子化方案: 为每128个权重共享FP16的缩放因子，且各权重以1.58位进行编码，从而保持高智力密度。
以Apache 2.0许可证开放: 模型权重以开源方式发布，用户可以通过MLX在Mac、iPhone、iPad上立即使用。

🦈 鲨鱼视角（策展人视点）

这个「Ternary Bonsai」简直是重新定义了本地AI的物理极限！值得注意的是“1.58位”这个看似中庸的数字的应用。通过仅增加0.58位的额外成本，挽救了1位（两值）无法表达的信息细微差别，真是天才之作！而且，网络的每一层都没有留下“高精度的退路”，完全贯彻了低位实现，展现了PrismML的执念！如此强大的性能，已经不再需要依赖云端。口袋里的iPhone 17 Pro Max，正开启一个能以超高速运算昔日服务器级智能的时代！

🚀 接下来会怎么发展？

设备端AI的标准将迅速从“16位”转变为“1.58位”。这将使得在内存有限且价格低廉的设备上也能实现高级推理，进一步加速AI代理的常驻化。开发者将习惯于在1位（超轻量）和1.58位（高性能、轻量）之间进行灵活切换！

💬 鲨鱼视角一句话

iPhone上8B模型流畅运行，简直让我觉得胃口变大了10倍！这种效率，真是鲨鱼级别的省电与高效！🦈🔥

📚 术语解释

三值权重（Ternary Weights）: 将AI的神经元（权重）仅用{-1, 0, +1}三种状态表示的技术，显著降低计算成本。
1.58位表示: 表示三种状态所需的信息位数（log2(3) ≒ 1.58），比1位（两值）具有更高的表现力。
帕累托前沿（Pareto Frontier）: 在性能与大小的权衡中，无法进一步改善的“最佳”界限。这次的成果将其向左（更小、更高性能）移动了。
信息来源: Ternary Bonsai: Top Intelligence at 1.58 Bits

1.58位革命！「Ternary Bonsai」登场。8B模型仅需1.75GB运行

1.58位革命！「Ternary Bonsai」登场。8B模型仅需1.75GB运行

📰 新闻概述

💡 重要要点

🦈 鲨鱼视角（策展人视点）

🚀 接下来会怎么发展？

💬 鲨鱼视角一句话

📚 术语解释

はるサメをフォローするだサメ！