谷歌AI模式在地理定位测试中领先，GPT-5表现下滑

快速阅读: Bellingcat对比500次地理定位测试，Google AI模式表现最佳，GPT-5准确性下降。测试涵盖25张度假照片，Google AI模式在第25次测试中唯一正确识别荷兰诺德韦克位置。

六月，Bellingcat 对来自不同公司的500次地理定位测试进行了对比，其中包括了 Google Lens——一种用于查找照片位置的标准工具。当时，ChatGPT o4-mini-high 显著领先，而 Google Lens 的表现也优于大多数其他模型。仅仅两个月后，随着这些人工智能工具新版本的推出，我们再次进行了试验，这次加入了 Google “AI 模式”，GPT-5，GPT-5 思考模式，以及 Grok 4。

最初的测试使用了 Bellingcat 自己的25张度假照片，从城市到偏远乡村，这些照片涵盖了有明显特征（如道路、标志、山脉或建筑）和没有明显特征的场景，来源覆盖各大洲。在更新的试验中，五张测试照片被排除在外，因为它们曾出现在一篇文章中，可能会影响结果的公正性。

所有24个模型的回应都被按0到10分进行评分，其中10分表示准确且具体的位置识别（例如某个街区、小径或地标），0分表示未尝试识别位置。

结果显示，Google AI 模式总体上是最强大的地理定位工具。Grok 4 给出的回答比 Grok 3 更好也更差，但平均得分略高。不过，它的准确性仍然低于较旧版本的 Gemini 和 GPT。相比之下，GPT-5 即使在“思考”和“专业”模式下，与 o4-mini-high 相比也是一个显著的退步。例如，在一张背景有摩天大楼的城市街道照片中，o4-mini-high 准确地识别出了这条街道，而 GPT-5 在思考模式下却指向了一个错误的国家。

尽管 GPT-5 的回答速度更快，但似乎牺牲了准确性。许多错误和普遍的失望情绪也已被其他用户报道。Bellingcat 通过 Plus 订阅测试了 GPT-5 及其“思考”模式，该订阅的价格与之前访问 o4-mini-high 的费用大致相同。最困难的五张测试图片还通过了每月收费200欧元的 GPT-5 Pro 版本的测试，但即便如此，Pro 版本在地理定位照片方面的准确性也没有超过 GPT 04-mini-high。

在第25次测试中，一张荷兰诺德韦克海岸边的酒店照片，背后是沙丘上的摩天轮，Google 与 GPT 模型之间的差距变得更加明显。在之前的测试中，大多数旧模型，包括 GPT、Claude、Gemini 和 Grok，都能正确识别出国家为荷兰，但未能找到具体城镇。许多人将注意力集中在摩天轮上，误认为是同样有摩天轮的海边小镇斯赫维宁根，但那里的摩天轮位于码头上，而不是沙丘中。

然而，最新的 GPT-5 Pro 和思考模式更加不准确，甚至将地点误判为法国的一个海滩——完全不同的国家。大多数模型在某些时候都会产生幻觉，用户不应完全依赖 LLM 提供的答案。

对于开源研究者来说，不幸的是，随着 GPT-5 的发布，OpenAI 移除了选择旧模型（如 o4-mini-high）的选项。在一波负面反馈之后，OpenAI 将 GPT-4o 设为付费用户的默认模型。但是，Bellingcat 测试中确定的最佳地理定位模型仍无法访问。

相比之下，Google AI 模式是第一个也是唯一一个在第25次测试中正确识别出诺德韦克位置的模型。尽管 AI 模式由 Gemini 2.5 的一个版本驱动，但在这些测试中，它超越了 Gemini 2.5 Pro Deep Research。

谷歌将其描述为“最强大的AI搜索，具有更高级的推理能力和多模态”，AI模式在地理定位测试图像方面比所有GPT模型，包括我们之前的获胜者o4-mini-high，表现出更高的准确性。目前，AI模式仅在印度、英国和美国提供。

大多数模型在某些时候会返回幻觉结果。用户不应完全依赖大型语言模型提供的答案。即使是最优选项，如谷歌的AI模式，有时也会自信地指向错误的位置。

与两个月前相比，模型能力的差异显示了这一领域的发展速度。然而，OpenAI最近的变化也表明进步不是必然的，AI的地理定位能力可能会停滞甚至倒退。随着新模型的出现，Bellingcat将继续对其进行测试。

感谢Nathan Patin对原始基准测试的贡献。

编者按：本文由Bellingcat首次发表，经许可在此转载。

Foeke Postma是Bellingcat的研究员和培训师。他有冲突分析与解决的背景，特别关注军事、环境和LGBT+议题。

本文首次发表于全球调查新闻网络，并在此以创作共用许可的方式转载。

(以上内容均由Ai生成)