AI

谷歌AI模式在地理定位测试中领先,GPT-5表现下滑

发布时间:2025年9月3日    来源:szf
谷歌AI模式在地理定位测试中领先,GPT-5表现下滑

快速阅读: Bellingcat对比500次地理定位测试,Google AI模式表现最佳,GPT-5准确性下降。测试涵盖25张度假照片,Google AI模式在第25次测试中唯一正确识别荷兰诺德韦克位置。

六月,Bellingcat 对来自不同公司的500次地理定位测试进行了对比,其中包括了 Google Lens——一种用于查找照片位置的标准工具。当时,ChatGPT o4-mini-high 显著领先,而 Google Lens 的表现也优于大多数其他模型。仅仅两个月后,随着这些人工智能工具新版本的推出,我们再次进行了试验,这次加入了 Google “AI 模式”,GPT-5,GPT-5 思考模式,以及 Grok 4。

最初的测试使用了 Bellingcat 自己的25张度假照片,从城市到偏远乡村,这些照片涵盖了有明显特征(如道路、标志、山脉或建筑)和没有明显特征的场景,来源覆盖各大洲。在更新的试验中,五张测试照片被排除在外,因为它们曾出现在一篇文章中,可能会影响结果的公正性。

所有24个模型的回应都被按0到10分进行评分,其中10分表示准确且具体的位置识别(例如某个街区、小径或地标),0分表示未尝试识别位置。

结果显示,Google AI 模式总体上是最强大的地理定位工具。Grok 4 给出的回答比 Grok 3 更好也更差,但平均得分略高。不过,它的准确性仍然低于较旧版本的 Gemini 和 GPT。相比之下,GPT-5 即使在“思考”和“专业”模式下,与 o4-mini-high 相比也是一个显著的退步。例如,在一张背景有摩天大楼的城市街道照片中,o4-mini-high 准确地识别出了这条街道,而 GPT-5 在思考模式下却指向了一个错误的国家。

尽管 GPT-5 的回答速度更快,但似乎牺牲了准确性。许多错误和普遍的失望情绪也已被其他用户报道。Bellingcat 通过 Plus 订阅测试了 GPT-5 及其“思考”模式,该订阅的价格与之前访问 o4-mini-high 的费用大致相同。最困难的五张测试图片还通过了每月收费200欧元的 GPT-5 Pro 版本的测试,但即便如此,Pro 版本在地理定位照片方面的准确性也没有超过 GPT 04-mini-high。

在第25次测试中,一张荷兰诺德韦克海岸边的酒店照片,背后是沙丘上的摩天轮,Google 与 GPT 模型之间的差距变得更加明显。在之前的测试中,大多数旧模型,包括 GPT、Claude、Gemini 和 Grok,都能正确识别出国家为荷兰,但未能找到具体城镇。许多人将注意力集中在摩天轮上,误认为是同样有摩天轮的海边小镇斯赫维宁根,但那里的摩天轮位于码头上,而不是沙丘中。

然而,最新的 GPT-5 Pro 和思考模式更加不准确,甚至将地点误判为法国的一个海滩——完全不同的国家。大多数模型在某些时候都会产生幻觉,用户不应完全依赖 LLM 提供的答案。

对于开源研究者来说,不幸的是,随着 GPT-5 的发布,OpenAI 移除了选择旧模型(如 o4-mini-high)的选项。在一波负面反馈之后,OpenAI 将 GPT-4o 设为付费用户的默认模型。但是,Bellingcat 测试中确定的最佳地理定位模型仍无法访问。

相比之下,Google AI 模式是第一个也是唯一一个在第25次测试中正确识别出诺德韦克位置的模型。尽管 AI 模式由 Gemini 2.5 的一个版本驱动,但在这些测试中,它超越了 Gemini 2.5 Pro Deep Research。

谷歌将其描述为“最强大的AI搜索,具有更高级的推理能力和多模态”,AI模式在地理定位测试图像方面比所有GPT模型,包括我们之前的获胜者o4-mini-high,表现出更高的准确性。目前,AI模式仅在印度、英国和美国提供。

大多数模型在某些时候会返回幻觉结果。用户不应完全依赖大型语言模型提供的答案。即使是最优选项,如谷歌的AI模式,有时也会自信地指向错误的位置。

与两个月前相比,模型能力的差异显示了这一领域的发展速度。然而,OpenAI最近的变化也表明进步不是必然的,AI的地理定位能力可能会停滞甚至倒退。随着新模型的出现,Bellingcat将继续对其进行测试。

感谢Nathan Patin对原始基准测试的贡献。

编者按:本文由Bellingcat首次发表,经许可在此转载。

Foeke Postma是Bellingcat的研究员和培训师。他有冲突分析与解决的背景,特别关注军事、环境和LGBT+议题。

本文首次发表于全球调查新闻网络,并在此以创作共用许可的方式转载。

(以上内容均由Ai生成)

你可能还想读

印尼副部长呼吁谨慎使用AI进行公共沟通

印尼副部长呼吁谨慎使用AI进行公共沟通

快速阅读: 印度尼西亚通信和数字事务部副部长Nezar Patria呼吁公共关系专业人员谨慎、道德地使用AI,强调AI虽具潜力,但需人类监督与伦理责任,确保沟通质量与真实性。 雅加达(ANTARA)- 印度尼西亚通信和数字事务部副部长Nez […]

发布时间:2025年10月23日
名人及AI巨头呼吁停止追求超智能

名人及AI巨头呼吁停止追求超智能

快速阅读: 超过700名科学家、政治人物和名人呼吁暂停开发超人工智能,直至技术安全可控且获公众支持。未来生命研究所发布公开信,强调当前AI发展路径与公众期望、安全性及伦理标准脱节。 超过700名科学家、政治人物和名人,包括哈里王子、理查德· […]

发布时间:2025年10月23日
保守活动人士因谷歌AI生成虚假信息起诉谷歌

保守活动人士因谷歌AI生成虚假信息起诉谷歌

快速阅读: 保守活动人士罗比·斯塔巴克因谷歌AI系统生成关于他的虚假信息,将其诉至特拉华州法院,要求至少1500万美元赔偿。谷歌称此为Bard误判所致,已尽力处理。 保守活动人士罗比·斯塔巴克周三对谷歌提起诉讼,指控这家科技巨头的人工智能系 […]

发布时间:2025年10月23日
拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

拉夫劳伦推出AI购物体验,个性化服务引领未来时尚

快速阅读: 拉尔夫劳伦与微软合作推出AI对话购物工具“Ask Ralph”,提供个性化风格灵感,强调技术应提升品牌体验而非目的本身,展现AI个性化体验趋势。 9月,拉尔夫劳伦(与微软合作)发布了“Ask Ralph”,这是一款被描述为“由人 […]

发布时间:2025年10月23日
荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

荣耀转型AI终端生态公司,方飞详解1 x 3 x N战略

快速阅读: 荣耀董事长吴晖宣布转型为AI终端生态公司,提出1 x 3 x N战略,涵盖HONOR AI Connect平台及多项赋能措施,推动AI场景化落地,涉及教育、家居、健康等多领域。 感谢IT之家网友 風見暉一 的线索投递! IT之家 […]

发布时间:2025年10月23日
微软Photos推AI绘图与智能重塑新功能

微软Photos推AI绘图与智能重塑新功能

快速阅读: 微软在其Photos应用中推出AI驱动的Restyle Image和Image Creator功能,前者可智能重塑照片风格,后者能根据描述生成高质量图像,均支持隐私保护,旨在提升图像创作体验。 微软近日在其 Photos(照片) […]

发布时间:2025年10月23日
2025新一代人工智能创业大赛启动 全球招募火热进行中

2025新一代人工智能创业大赛启动 全球招募火热进行中

快速阅读: 网易传媒启动2025新一代人工智能创业大赛,聚焦AI新技术与应用,设三大赛道,面向A轮前团队,奖金总额100万元,提供多维指导与资源支持。 2025年10月22日,网易传媒正式启动 “2025新一代人工智能创业大赛”,面向全球创 […]

发布时间:2025年10月23日
谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

谷歌量子芯片Willow实现可验证量子优势,性能超13000倍

快速阅读: 谷歌发布量子芯片Willow,成功运行“量子回声”算法,实现首个可验证的量子优势,比超级计算机快13,000倍,为新药研发和材料科学开辟新途径。 继量子计算研究团队荣获诺贝尔物理学奖之后,谷歌再次取得突破性进展。当地时间10月2 […]

发布时间:2025年10月23日