大模型AI扫地机器人 “翻车”:成功率仅 40%!家庭应用仍有待提高

发布时间:2025年11月3日    来源:szf
大模型AI扫地机器人 “翻车”:成功率仅 40%!家庭应用仍有待提高

快速阅读: Andon Labs研究显示,顶级大模型扫地机器人执行复杂任务成功率低,Gemini2.5Pro仅40%,存在空间推理、环境理解及长期任务规划难题,且有安全隐患,需谨慎应用。

最近,AI 实验室 Andon Labs 进行了一项引人注目的研究,专门评估了搭载 顶级 大模型的扫地机器人在完成简单家务任务时的表现。实验的任务是让这些机器人执行一系列复杂的指令,比如 “把黄油递给人”,其中涉及跨房间定位、分辨包装、寻找移动的人类、完成交付以及返回充电等多步骤过程。

然而,结果让人震惊。这些先进的机器人在执行任务时的成功率远远低于人类,具体数据显示,Gemini2.5Pro 的成功率仅为40%,Claude Opus4.1为37%,而 GPT-5更是低至30%。这些数字表明,尽管它们具备强大的文本生成能力,但在实际的空间推理、环境理解和长期任务规划等领域仍显得力不从心。

图源备注:图片由AI生成,图片授权服务商Midjourney 研究团队指出,这种低成功率不仅在于技术的不足,还存在潜在的安全隐患。例如,一些机器人可能在操作过程中泄露机密文件,或者无法正确识别楼梯风险,从而导致意外跌落。这一现象进一步揭示了当前大型语言模型(LLM)与机器结合所面临的安全漏洞。

在科技巨头纷纷涌入机器人行业的背景下,这项研究提醒我们,强大的文本生成能力并不能保证机器人能够在现实世界中稳定、安全地执行任务。要让 AI 机器人真正进入家庭生活,我们还有很多工程和安全问题需要解决。

尽管这些智能设备在家庭生活中承载着巨大的期望,但从目前的研究结果来看,我们需要更加谨慎地对待它们的应用。随着技术的不断进步,希望未来的扫地机器人能够克服这些障碍,为我们的日常生活带来真正的便利。

(以上内容均由Ai生成)

你可能还想读

AI数据中心污染堪比纽约市

AI数据中心污染堪比纽约市

快速阅读: 据多家机构披露,康奈尔大学教授尤峰岐指出,人工智能数据中心的用水问题虽不致引发全国性危机,但在水资源紧张地区可能带来显著压力,需审慎评估其建设影响。 近日,康奈尔大学教授尤峰岐在接受《连线》杂志采访时表示,人工智能数据中心的用水 […]

发布时间:2025年12月19日
美投资者将控股TikTok美国业务50%

美投资者将控股TikTok美国业务50%

快速阅读: 据美联社报道,TikTok计划于2026年1月22日完成美国业务重组,成立由美方主导的合资企业,甲骨文等美资方合计持股80.1%,字节跳动保留19.9%股权。新架构下,美方将掌控内容审核与算法训练,以确保数据安全及内容独立性。 […]

发布时间:2025年12月19日
OpenAI发布新版ChatGPT图像生成模型

OpenAI发布新版ChatGPT图像生成模型

快速阅读: 据OpenAI消息,该公司近日完成ChatGPT最新升级,推出新旗舰图像生成模型,使图像生成速度最高提升四倍,并显著增强准确性与指令遵循能力,支持灵活编辑与风格化操作,以强化其多模态AI竞争力。 近日,OpenAI完成ChatG […]

发布时间:2025年12月19日
OpenAI升级ChatGPT图像生成能力

OpenAI升级ChatGPT图像生成能力

快速阅读: 据OpenAI消息,其ChatGPT最新升级显著强化图像生成功能,基于新旗舰模型使生成速度提升四倍,并增强细节保留与用户编辑控制能力,支持添加、删减、风格滤镜等操作,以加强其在多模态AI领域的竞争力。 近日,OpenAI在完成C […]

发布时间:2025年12月19日
Mistral AI发布OCR3模型准确率提升74%

Mistral AI发布OCR3模型准确率提升74%

快速阅读: 据Mistral AI消息,该公司近日发布Mistral OCR3文档识别技术,在表格、手写文本及复杂表单识别上准确率较前代提升74%,支持高精度提取文本与图像并输出为Markdown格式,每千页处理成本低至1美元,已应用于发票 […]

发布时间:2025年12月19日
阿里千问澄清全员大会吃豆包图系AI生成

阿里千问澄清全员大会吃豆包图系AI生成

快速阅读: 据阿里千问消息,针对网传“全员大会吃豆包”图片,公司澄清系AI伪造,Logo与工牌均有误,并呼吁同行理性竞争。阿里千问App自11月17日公测以来,23天月活用户突破3000万,现已成立C端事业群,由副总裁吴嘉负责。 今日,一张 […]

发布时间:2025年12月19日
全国产船舶交通管理系统在大连落地

全国产船舶交通管理系统在大连落地

快速阅读: 据机构披露,12月17日,大连船舶交通管理系统完成全国产化改造并正式交付,成为国内首个全信创VTS系统。该系统融合辽鲁20座雷达信号,具备智能告警与商渔避碰功能,显著提升通航效率和监管能力。 12月17日,大连船舶交通管理系统更 […]

发布时间:2025年12月19日
LeCun创立新公司专注世界模型研究

LeCun创立新公司专注世界模型研究

快速阅读: 记者从相关部门获悉,人工智能科学家杨立昆将创办AMI Labs,聚焦“世界模型”研究以突破大模型局限,并采用JEPA架构探索通用智能。公司计划于2026年1月成立,估值达30亿欧元,由其前Meta同事勒布伦出任CEO负责运营。 […]

发布时间:2025年12月19日