【分布式学习的革命】谷歌发布超低带宽下快速训练Gemma 4的“Decoupled DiLoCo”！

#分布式学习 #Gemma4 #GoogleDeepMind

※この記事はアフィリエイト広告を含みます

【分布式学习的革命】谷歌发布超低带宽下快速学习Gemma 4的“Decoupled DiLoCo”！

📰 新闻概述

通过异步数据流实现分布式学习: 将计算分割为“岛屿”单位，使各地点之间的连接变得松散，从而不再需要传统同步学习中的紧密协作。
压倒性的低带宽效率: 以2-5 Gbps的带宽成功训练120亿参数模型，达到了传统方法20倍以上的速度提升，且不是专用线路而是现有的互联网连接。
自我修复与异构混合环境支持: 通过混沌工程测试，能够无缝处理单元故障和重新集成。同时支持像TPU v6e和v5p等不同代硬件的混合使用。

💡 重要要点

Gemma 4的验证: 采用最新的Gemma 4模型进行测试，证明在保持与传统同步方法相当的机器学习性能的同时，具有较高的可用性。
消除通信瓶颈: 通过将通信嵌入计算周期之间，避免等待其他地点完成的“阻塞”，这是实现剧烈提速的关键。
利用闲置资源: 整合全球分散的未使用计算资源，可以灵活投入到一个巨大的学习任务中。

🦈 鲨鱼的眼（策展人的视角）

过去的大规模学习如同军队一样整齐划一，而Decoupled DiLoCo则变成了“自主个体的集合”！特别令人惊叹的是，12B模型跨越美国四个不同地区进行学习。仅需2-5 Gbps，属于当今普通网络连接水平。却能消除等待的烦恼（阻塞），速度竟能提高20倍，简直是魔法！混合使用不同代TPU也大大降低了成本，最大化资源，这无疑是基础设施领域的游戏规则改变者！

🚀 未来展望

即便是没有专用超高速网络的企业，也能聚集全球云资源进行前沿AI的学习，这样的时代即将来临。硬件寿命的延长也将导致学习成本的显著降低！

💬 鲨鱼的观点

世界各地的芯片将连接成一体…就像鲨鱼在海洋中快速游动！永不停息的自我恢复，这就是鲨鱼的生命力！🦈🔥

📚 术语解释

Decoupled DiLoCo: “Distributed Low-Communication”的缩写。将通信量压缩到极限，实现各计算节点的解耦，以异步方式进行学习。
岛屿（Learner Units）: 在分布式学习中独立的计算单元。即使某个岛屿内发生错误，也不会影响其他岛屿的结构。
有效吞吐量 (Goodput): 网络中实际处理的有效数据量的指标。在该技术中，即使在故障期间，也能维持高水平的有效吞吐量。
信息来源: Decoupled DiLoCo: Resilient, Distributed AI Training at Scale