谷歌AI模式在地理定位测试中领先,GPT-5表现下滑
快速阅读: Bellingcat对比500次地理定位测试,Google AI模式表现最佳,GPT-5准确性下降。测试涵盖25张度假照片,Google AI模式在第25次测试中唯一正确识别荷兰诺德韦克位置。
六月,Bellingcat 对来自不同公司的500次地理定位测试进行了对比,其中包括了 Google Lens——一种用于查找照片位置的标准工具。当时,ChatGPT o4-mini-high 显著领先,而 Google Lens 的表现也优于大多数其他模型。仅仅两个月后,随着这些人工智能工具新版本的推出,我们再次进行了试验,这次加入了 Google “AI 模式”,GPT-5,GPT-5 思考模式,以及 Grok 4。
最初的测试使用了 Bellingcat 自己的25张度假照片,从城市到偏远乡村,这些照片涵盖了有明显特征(如道路、标志、山脉或建筑)和没有明显特征的场景,来源覆盖各大洲。在更新的试验中,五张测试照片被排除在外,因为它们曾出现在一篇文章中,可能会影响结果的公正性。
所有24个模型的回应都被按0到10分进行评分,其中10分表示准确且具体的位置识别(例如某个街区、小径或地标),0分表示未尝试识别位置。
结果显示,Google AI 模式总体上是最强大的地理定位工具。Grok 4 给出的回答比 Grok 3 更好也更差,但平均得分略高。不过,它的准确性仍然低于较旧版本的 Gemini 和 GPT。相比之下,GPT-5 即使在“思考”和“专业”模式下,与 o4-mini-high 相比也是一个显著的退步。例如,在一张背景有摩天大楼的城市街道照片中,o4-mini-high 准确地识别出了这条街道,而 GPT-5 在思考模式下却指向了一个错误的国家。
尽管 GPT-5 的回答速度更快,但似乎牺牲了准确性。许多错误和普遍的失望情绪也已被其他用户报道。Bellingcat 通过 Plus 订阅测试了 GPT-5 及其“思考”模式,该订阅的价格与之前访问 o4-mini-high 的费用大致相同。最困难的五张测试图片还通过了每月收费200欧元的 GPT-5 Pro 版本的测试,但即便如此,Pro 版本在地理定位照片方面的准确性也没有超过 GPT 04-mini-high。
在第25次测试中,一张荷兰诺德韦克海岸边的酒店照片,背后是沙丘上的摩天轮,Google 与 GPT 模型之间的差距变得更加明显。在之前的测试中,大多数旧模型,包括 GPT、Claude、Gemini 和 Grok,都能正确识别出国家为荷兰,但未能找到具体城镇。许多人将注意力集中在摩天轮上,误认为是同样有摩天轮的海边小镇斯赫维宁根,但那里的摩天轮位于码头上,而不是沙丘中。
然而,最新的 GPT-5 Pro 和思考模式更加不准确,甚至将地点误判为法国的一个海滩——完全不同的国家。大多数模型在某些时候都会产生幻觉,用户不应完全依赖 LLM 提供的答案。
对于开源研究者来说,不幸的是,随着 GPT-5 的发布,OpenAI 移除了选择旧模型(如 o4-mini-high)的选项。在一波负面反馈之后,OpenAI 将 GPT-4o 设为付费用户的默认模型。但是,Bellingcat 测试中确定的最佳地理定位模型仍无法访问。
相比之下,Google AI 模式是第一个也是唯一一个在第25次测试中正确识别出诺德韦克位置的模型。尽管 AI 模式由 Gemini 2.5 的一个版本驱动,但在这些测试中,它超越了 Gemini 2.5 Pro Deep Research。
谷歌将其描述为“最强大的AI搜索,具有更高级的推理能力和多模态”,AI模式在地理定位测试图像方面比所有GPT模型,包括我们之前的获胜者o4-mini-high,表现出更高的准确性。目前,AI模式仅在印度、英国和美国提供。
大多数模型在某些时候会返回幻觉结果。用户不应完全依赖大型语言模型提供的答案。即使是最优选项,如谷歌的AI模式,有时也会自信地指向错误的位置。
与两个月前相比,模型能力的差异显示了这一领域的发展速度。然而,OpenAI最近的变化也表明进步不是必然的,AI的地理定位能力可能会停滞甚至倒退。随着新模型的出现,Bellingcat将继续对其进行测试。
感谢Nathan Patin对原始基准测试的贡献。
编者按:本文由Bellingcat首次发表,经许可在此转载。
Foeke Postma是Bellingcat的研究员和培训师。他有冲突分析与解决的背景,特别关注军事、环境和LGBT+议题。
本文首次发表于全球调查新闻网络,并在此以创作共用许可的方式转载。
(以上内容均由Ai生成)