3 min read
[AI 小众新闻]

用SSD解决内存不足问题!专为Apple Silicon设计的LLM调度器“Hypura”引领革命


一款整合管理Apple Silicon的GPU、RAM和NVMe,以在Mac上运行超出物理内存的大型LLM推理调度器。

※この記事はアフィリエイト広告を含みます

[AI小新闻快报] 用SSD解决内存不足问题!专为Apple Silicon设计的LLM调度器“Hypura”引领革命

📰 新闻概览

  • 针对Apple Silicon开发的新型LLM推理调度器“Hypura”正式发布,专注于存储层次的优化管理。
  • 通过将模型数据在GPU、RAM和NVMe(SSD)三层中进行最佳配置,使得运行超出物理内存容量的大型模型成为可能。
  • 成功在32GB内存的Mac Mini上运行本应崩溃的31GB Mixtral和40GB Llama 70B模型。

💡 关键要点

  • MoE(混合专家)模型优化:仅在推理时从SSD加载8个专家中的2个,从而将I/O(数据传输)减少75%。缓存命中率高达99.5%。
  • 动态资源管理:自动分析硬件带宽和内存可用性,智能调整各层的配置和预取(prefetch)深度。
  • 高兼容性:基于llama.cpp,并具备Ollama兼容的API服务器功能,便于现有工具的迁移。

🦈 鲨鱼观察(策展人视角)

这是极大释放Apple Silicon“统一内存”和“高速SSD”潜力的工具!值得注意的是,它不仅仅是将SSD作为虚拟内存使用,而是理解模型架构(特别是MoE),智能地“只从SSD提取当前需要的数据”。通常情况下,内存不足导致OS交换时,系统整体会变得不稳定,但Hypura通过直接控制I/O并进行预测性预取,既避免了崩溃,又保持了实用的速度,真是太厉害了!

🚀 未来展望

即使不购买昂贵的内存扩展模型,普通Mac用户也将能够在本地运行Llama 3 70B级别的大型模型。随着MoE模型的普及,本地AI的限制将进一步被突破!

💬 鲨鱼的随想

内存不足的话,那就吃掉SSD吧!这真是鲨鱼式的狂野解决方案,太棒了!🦈🔥

📚 术语解释

  • NVMe:一种支持极高速数据传输的SSD连接标准。Hypura利用这个速度进行推理。

  • MoE (Mixtral 8x7B等):拥有多个“专家”组件的技术,推理时仅激活部分组件,从而降低计算量。

  • OOM (Out Of Memory):内存不足导致程序强制结束的现象。Hypura有效防止这种情况的发生。

  • 信息来源: Hypura – A storage-tier-aware LLM inference scheduler for Apple Silicon

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈