机器人获得『智能』的瞬间！谷歌发布身体推理模型『Gemini Robotics-ER 1.6』

※この記事はアフィリエイト広告を含みます

📰 新闻概述

**专注于「身体推理（Embodied Reasoning）」**的最新模型「Gemini Robotics-ER 1.6」在Gemini API和谷歌AI工作室中发布。
机器人对周围环境的理解能力得到显著提升，**「多视角理解」和「空间推理」**的能力大幅增强，指向（指示）及计数、动作成功判定的准确性得到了提高。
与波士顿动力的合作，使其具备读取复杂模拟仪表和视景仪表值的新功能，显著提升了在工业现场的实用性。

高级推理与工具使用: 模型能够原生调用谷歌搜索、VLA（视觉-语言-动作模型）和用户定义函数，进行任务规划和执行。
自主性引擎「成功判定」: 具备视觉上判断任务是否完成的能力，若失败则可自主决定是重试还是进行下一个计划。
超强空间认知能力: 与前一模型（1.5）及Gemini 3.0 Flash相比，能够准确计数物体，并识别符合特定约束条件（如「能放入蓝色杯子大小的物体」）的能力得到了进化。

终于，机器人从单纯执行「眼前指令」的机械，进化为根据现场进行「推理」的智能代理了！特别令人振奋的是，这个模型整合了多个摄像头视角（如俯视摄像头和手持摄像头），以一个整体世界的方式理解，即「多视角推理」。即使在遮挡物或光线不足的环境中，通过组合多个视点，它也能够进行人类级别的情境判断，真是令人惊叹！

此外，指向（坐标指定）作为中继步骤的功能也不容忽视。它不仅能说「去拿那个」，还可以执行更复杂的逻辑，比如「先数这个，再把最小的那个运送到这里」，这显示出机器人的大脑确实得到了升级！想象一下，波士顿动力的机器人能够实现这一功能的未来，真让人期待不已！🦈🔥

机器人能够「自动识别失败并重试」将成为常态，工厂和物流中心的完全无人化将进一步加速。特别是能够读取模拟仪表后，AI机器人在仍有老旧设备的基础设施检查现场的应用将会迅速普及！

鲨鱼记者「春鲨」也想说，只要有这个，就能读取深海复杂的仪表，进行寻宝探险！自主性是通往自由的第一步！🦈💎