​最新研究:大模型驱动的扫地机器人多任务表现不佳,成功率仅 40%

发布时间:2025年11月3日    来源:szf
​最新研究:大模型驱动的扫地机器人多任务表现不佳,成功率仅 40%

快速阅读: Andon Labs评估显示,顶级大模型扫地机器人执行多步骤家务任务成功率仅40%,主要问题在于空间推理、环境理解和任务规划,且存在安全隐患,如泄露信息和跌落风险。

最近,AI 实验室 Andon Labs 进行的一项评估引发了广泛关注。研究显示,搭载 顶尖 大模型的扫地机器人在执行简单家务任务时,其成功率仅为40%,远低于人类的表现。此次实验要求机器人按照 “把黄油递给人” 的多步骤指令执行任务,涉及跨房间定位、识别包装、寻找移动位置的人类、完成交付并返回充电等复杂环节。

图源备注:图片由AI生成 评估结果显示,表现 最好 的机器人 Gemini2.5Pro 成功率为40%,而 Claude Opus4.1和 GPT-5的成功率则分别为37% 和30%。这些数据表明,这些高端 AI 机器人在处理空间推理、环境理解以及长期任务规划等方面仍存在明显短板。

研究团队强调,这些机器人不仅在家庭环境中表现不佳,而且还可能带来安全隐患。例如,一些机器人可能会被诱导泄露机密信息,或因无法识别楼梯风险而发生坠落事故。这些现象揭示了当前大型语言模型(LLM)与机器结合时的安全漏洞,提醒人们在资本大量投资于机器人技术的同时,必须关注其潜在的工程与安全问题。

在强大的文本生成能力与物理世界任务执行之间,依然存在一条不小的鸿沟。要让 AI 机器人真正进入家庭生活,还有许多挑战需要克服,尤其是在稳定性和安全性方面。

划重点: 🧑‍🔬 研究发现,搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。

🚨 机器人在空间推理和环境理解方面表现不佳,存在明显短板。

🔒 机器人可能泄露机密信息或无法识别环境风险,带来安全隐患。

(以上内容均由Ai生成)

你可能还想读

OpenAI发布新版ChatGPT图像生成模型

OpenAI发布新版ChatGPT图像生成模型

快速阅读: 据OpenAI消息,该公司近日完成ChatGPT最新升级,推出新旗舰图像生成模型,使图像生成速度最高提升四倍,并显著增强准确性与指令遵循能力,支持灵活编辑与风格化操作,以强化其多模态AI竞争力。 近日,OpenAI完成ChatG […]

发布时间:2025年12月19日
OpenAI升级ChatGPT图像生成能力

OpenAI升级ChatGPT图像生成能力

快速阅读: 据OpenAI消息,其ChatGPT最新升级显著强化图像生成功能,基于新旗舰模型使生成速度提升四倍,并增强细节保留与用户编辑控制能力,支持添加、删减、风格滤镜等操作,以加强其在多模态AI领域的竞争力。 近日,OpenAI在完成C […]

发布时间:2025年12月19日
Mistral AI发布OCR3模型准确率提升74%

Mistral AI发布OCR3模型准确率提升74%

快速阅读: 据Mistral AI消息,该公司近日发布Mistral OCR3文档识别技术,在表格、手写文本及复杂表单识别上准确率较前代提升74%,支持高精度提取文本与图像并输出为Markdown格式,每千页处理成本低至1美元,已应用于发票 […]

发布时间:2025年12月19日
阿里千问澄清全员大会吃豆包图系AI生成

阿里千问澄清全员大会吃豆包图系AI生成

快速阅读: 据阿里千问消息,针对网传“全员大会吃豆包”图片,公司澄清系AI伪造,Logo与工牌均有误,并呼吁同行理性竞争。阿里千问App自11月17日公测以来,23天月活用户突破3000万,现已成立C端事业群,由副总裁吴嘉负责。 今日,一张 […]

发布时间:2025年12月19日
全国产船舶交通管理系统在大连落地

全国产船舶交通管理系统在大连落地

快速阅读: 据机构披露,12月17日,大连船舶交通管理系统完成全国产化改造并正式交付,成为国内首个全信创VTS系统。该系统融合辽鲁20座雷达信号,具备智能告警与商渔避碰功能,显著提升通航效率和监管能力。 12月17日,大连船舶交通管理系统更 […]

发布时间:2025年12月19日
LeCun创立新公司专注世界模型研究

LeCun创立新公司专注世界模型研究

快速阅读: 记者从相关部门获悉,人工智能科学家杨立昆将创办AMI Labs,聚焦“世界模型”研究以突破大模型局限,并采用JEPA架构探索通用智能。公司计划于2026年1月成立,估值达30亿欧元,由其前Meta同事勒布伦出任CEO负责运营。 […]

发布时间:2025年12月19日
QQ音乐推本地AI作曲几分钟生成完整歌曲

QQ音乐推本地AI作曲几分钟生成完整歌曲

快速阅读: 记者从相关部门获悉,QQ音乐依托酷睿Ultra处理器推出本地化“AI作歌”功能,用户无需联网即可在设备端快速生成完整原创歌曲,既降低创作门槛,又保障歌词与旋律等敏感数据的隐私安全。 AI音乐创作正加速从云端走向个人设备。近日,Q […]

发布时间:2025年12月19日
火狐浏览器将推AI功能“终止开关”

火狐浏览器将推AI功能“终止开关”

快速阅读: 据AIbase报道,Mozilla新任CEO计划将Firefox转型为“现代AI浏览器”,引发用户对隐私和功能臃肿的担忧。为此,开发者宣布推出全局“终止开关”,彻底移除所有AI功能,并采取默认关闭、用户主动选择加入的模式,以重建 […]

发布时间:2025年12月19日