3 min read
[AI 小众新闻]

机器人获得『智能』的瞬间!谷歌发布身体推理模型『Gemini Robotics-ER 1.6』


  • 专注于「身体推理(Embodied Reasoning)」的最新模型「Gemini Robotics-ER 1.6」在Gemini API和谷歌AI工作室中发布。...
※この記事はアフィリエイト広告を含みます

机器人获得『智能』的瞬间!谷歌发布身体推理模型『Gemini Robotics-ER 1.6』

📰 新闻概述

  • **专注于「身体推理(Embodied Reasoning)」**的最新模型「Gemini Robotics-ER 1.6」在Gemini API和谷歌AI工作室中发布。
  • 机器人对周围环境的理解能力得到显著提升,**「多视角理解」和「空间推理」**的能力大幅增强,指向(指示)及计数、动作成功判定的准确性得到了提高。
  • 与波士顿动力的合作,使其具备读取复杂模拟仪表和视景仪表值的新功能,显著提升了在工业现场的实用性。

💡 重要要点

  • 高级推理与工具使用: 模型能够原生调用谷歌搜索、VLA(视觉-语言-动作模型)和用户定义函数,进行任务规划和执行。
  • 自主性引擎「成功判定」: 具备视觉上判断任务是否完成的能力,若失败则可自主决定是重试还是进行下一个计划。
  • 超强空间认知能力: 与前一模型(1.5)及Gemini 3.0 Flash相比,能够准确计数物体,并识别符合特定约束条件(如「能放入蓝色杯子大小的物体」)的能力得到了进化。

🦈 鲨鱼的眼(策展人观点)

终于,机器人从单纯执行「眼前指令」的机械,进化为根据现场进行「推理」的智能代理了!特别令人振奋的是,这个模型整合了多个摄像头视角(如俯视摄像头和手持摄像头),以一个整体世界的方式理解,即「多视角推理」。即使在遮挡物或光线不足的环境中,通过组合多个视点,它也能够进行人类级别的情境判断,真是令人惊叹!

此外,指向(坐标指定)作为中继步骤的功能也不容忽视。它不仅能说「去拿那个」,还可以执行更复杂的逻辑,比如「先数这个,再把最小的那个运送到这里」,这显示出机器人的大脑确实得到了升级!想象一下,波士顿动力的机器人能够实现这一功能的未来,真让人期待不已!🦈🔥

🚀 未来展望

机器人能够「自动识别失败并重试」将成为常态,工厂和物流中心的完全无人化将进一步加速。特别是能够读取模拟仪表后,AI机器人在仍有老旧设备的基础设施检查现场的应用将会迅速普及!

💬 鲨鱼视角的一句话

鲨鱼记者「春鲨」也想说,只要有这个,就能读取深海复杂的仪表,进行寻宝探险!自主性是通往自由的第一步!🦈💎

📚 术语解读

  • 身体推理 (Embodied Reasoning): AI不仅考虑数字空间的知识,还考虑现实物理空间中的位置关系和物体特性,以做出判断的技术。

  • 成功判定 (Success Detection): 机器人能够自主评估执行的动作是否达成目标的过程,这基于传感器和视觉信息。

  • VLA (Vision-Language-Action): 接收视觉输入和语言指令,并将其输出为机器人具体的「动作(Action)」的模型。

  • 信息来源: Gemini Robotics-ER 1.6

【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈