3 min read
[AI 小众新闻]

【分布式学习的革命】谷歌发布超低带宽下快速训练Gemma 4的“Decoupled DiLoCo”!


  • 通过异步数据流实现分布式学习: 将计算按“岛屿”单位划分,使各地点之间的连接变得松散,从而不再需要传统同步学习中必需的紧密协作。...
※この記事はアフィリエイト広告を含みます

【分布式学习的革命】谷歌发布超低带宽下快速学习Gemma 4的“Decoupled DiLoCo”!

📰 新闻概述

  • 通过异步数据流实现分布式学习: 将计算分割为“岛屿”单位,使各地点之间的连接变得松散,从而不再需要传统同步学习中的紧密协作。
  • 压倒性的低带宽效率: 以2-5 Gbps的带宽成功训练120亿参数模型,达到了传统方法20倍以上的速度提升,且不是专用线路而是现有的互联网连接。
  • 自我修复与异构混合环境支持: 通过混沌工程测试,能够无缝处理单元故障和重新集成。同时支持像TPU v6e和v5p等不同代硬件的混合使用。

💡 重要要点

  • Gemma 4的验证: 采用最新的Gemma 4模型进行测试,证明在保持与传统同步方法相当的机器学习性能的同时,具有较高的可用性。
  • 消除通信瓶颈: 通过将通信嵌入计算周期之间,避免等待其他地点完成的“阻塞”,这是实现剧烈提速的关键。
  • 利用闲置资源: 整合全球分散的未使用计算资源,可以灵活投入到一个巨大的学习任务中。

🦈 鲨鱼的眼(策展人的视角)

过去的大规模学习如同军队一样整齐划一,而Decoupled DiLoCo则变成了“自主个体的集合”!特别令人惊叹的是,12B模型跨越美国四个不同地区进行学习。仅需2-5 Gbps,属于当今普通网络连接水平。却能消除等待的烦恼(阻塞),速度竟能提高20倍,简直是魔法!混合使用不同代TPU也大大降低了成本,最大化资源,这无疑是基础设施领域的游戏规则改变者!

🚀 未来展望

即便是没有专用超高速网络的企业,也能聚集全球云资源进行前沿AI的学习,这样的时代即将来临。硬件寿命的延长也将导致学习成本的显著降低!

💬 鲨鱼的观点

世界各地的芯片将连接成一体…就像鲨鱼在海洋中快速游动!永不停息的自我恢复,这就是鲨鱼的生命力!🦈🔥

📚 术语解释

  • Decoupled DiLoCo: “Distributed Low-Communication”的缩写。将通信量压缩到极限,实现各计算节点的解耦,以异步方式进行学习

  • 岛屿(Learner Units): 在分布式学习中独立的计算单元。即使某个岛屿内发生错误,也不会影响其他岛屿的结构。

  • 有效吞吐量 (Goodput): 网络中实际处理的有效数据量的指标。在该技术中,即使在故障期间,也能维持高水平的有效吞吐量。

  • 信息来源: Decoupled DiLoCo: Resilient, Distributed AI Training at Scale

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈