※この記事はアフィリエイト広告を含みます
[AI小新闻] DeepMind发布的「LoGeR」:从1.9万帧超长视频中实现3D重建!
📰 新闻概览
- 超长视频支持: 谷歌DeepMind等开发了全新方法「LoGeR」,可从最大1万9000帧的超长视频中进行高精度的3D重建。
- 混合记忆的引入: 采用结合局部一致性的「滑动窗口注意力(SWA)」和长期一致性的「测试时训练(TTT)」的新架构。
- 精度大幅提升: 与传统前馈方法相比,在超长轨迹数据上实现了30.8%的精度提升,能够无偏差地再现千米级的风景。
💡 重要观点
- 突破「上下文壁垒」: 通过逐块处理视频,解决了传统模型在计算量激增(呈二次方成本)时的困境。
- 无需后期优化: 通常超长视频的3D重建需要复杂的后处理,但LoGeR通过一体化的「完全前馈」处理,从输入到输出保持高几何一致性。
- 抑制尺度漂移: 随着距离增加而易出现的「位置漂移」,通过TTT的全局锚定效果得到了显著减少。
🦈 鲨鱼视角(策展人观点)
SWA(局部)与TTT(全局)相结合的混合记忆构思真是绝妙!过去的方法常常面临细节与整体的矛盾,LoGeR在保持相邻帧之间精确对齐的同时,利用TTT动态更新「权重」,将整体结构牢牢铭刻在脑海中。能够将1.9万帧数据无缝3D化,简直是次世代空间认知能力的体现!
🚀 未来展望
一旦能够用一段视频快速实现千米级的广阔环境3D化,自动驾驶地图生成和大规模开放世界的数字双胞胎创建速度将会大幅提升。如果在无需后期优化的情况下都能如此流畅,实时大规模空间重建也将进入我们的视野!
💬 鲨鱼的简短评论
仅凭拍摄就能将整座城市转化为3D数据,真让人想要在海底到处扫描一番呢!🦈🔥
📚 术语解释
-
滑动窗口注意力(SWA): 像滑动窗口一样,只在特定范围内的帧之间进行计算。这种方法在降低计算成本的同时,加强了相邻数据之间的联系。
-
测试时训练(TTT): 在推理(测试)过程中,根据该数据微调模型参数的技术,从而能够更好地保持未知长数据的一致性。
-
前馈(Feedforward): 只需将输入数据通一次即可得出结果的方式,因而无需进行多次计算的后期优化,处理速度大幅提升。
-
信息来源: LoGeR – 3D reconstruction from extremely long videos (DeepMind, UC Berkeley)