谷歌DeepMind发布了机器人高层推理模型Gemini Robotics-ER 1.6,相比前代ER 1.5和Gemini 3.0 Flash,其在空间推理与多视角理解方面有显著提升。该模型已通过Gemini API和Google AI Studio向开发者开放。

核心升级能力包括:

  • 指向精度提升:可用于精确的物体检测、计数、空间关系推理(例如“指出所有能放进蓝色杯子的物体”)和运动轨迹规划,并能正确拒绝指向画面中不存在的物体。
  • 多视角成功检测:机器人能综合多个摄像头画面来判断任务是否完成,即使在遮挡或动态环境下也能保持准确性。
  • 新增仪表读取能力:可解读圆形压力表、垂直液位指示器和数字显示屏等多种工业仪表。通过“视觉推理+代码执行”的代理视觉模式,它能先放大细节区域,再通过指向和代码计算比例与间隔,最后结合世界知识得出准确读数。

🔥 实时行情点位,群内抢先看!

进群蹲精准做单提示→青岚免费交易社群 (电报)

以上仅为青岚姐个人观点,不作为投资建议,交易需谨慎|本文由青岚加密课堂整理优化