AI

谷歌AI模式在地理定位测试中领先,GPT-5表现下滑

发布时间:2025年9月3日    来源:szf
谷歌AI模式在地理定位测试中领先,GPT-5表现下滑

快速阅读: Bellingcat对比500次地理定位测试,Google AI模式表现最佳,GPT-5准确性下降。测试涵盖25张度假照片,Google AI模式在第25次测试中唯一正确识别荷兰诺德韦克位置。

六月,Bellingcat 对来自不同公司的500次地理定位测试进行了对比,其中包括了 Google Lens——一种用于查找照片位置的标准工具。当时,ChatGPT o4-mini-high 显著领先,而 Google Lens 的表现也优于大多数其他模型。仅仅两个月后,随着这些人工智能工具新版本的推出,我们再次进行了试验,这次加入了 Google “AI 模式”,GPT-5,GPT-5 思考模式,以及 Grok 4。

最初的测试使用了 Bellingcat 自己的25张度假照片,从城市到偏远乡村,这些照片涵盖了有明显特征(如道路、标志、山脉或建筑)和没有明显特征的场景,来源覆盖各大洲。在更新的试验中,五张测试照片被排除在外,因为它们曾出现在一篇文章中,可能会影响结果的公正性。

所有24个模型的回应都被按0到10分进行评分,其中10分表示准确且具体的位置识别(例如某个街区、小径或地标),0分表示未尝试识别位置。

结果显示,Google AI 模式总体上是最强大的地理定位工具。Grok 4 给出的回答比 Grok 3 更好也更差,但平均得分略高。不过,它的准确性仍然低于较旧版本的 Gemini 和 GPT。相比之下,GPT-5 即使在“思考”和“专业”模式下,与 o4-mini-high 相比也是一个显著的退步。例如,在一张背景有摩天大楼的城市街道照片中,o4-mini-high 准确地识别出了这条街道,而 GPT-5 在思考模式下却指向了一个错误的国家。

尽管 GPT-5 的回答速度更快,但似乎牺牲了准确性。许多错误和普遍的失望情绪也已被其他用户报道。Bellingcat 通过 Plus 订阅测试了 GPT-5 及其“思考”模式,该订阅的价格与之前访问 o4-mini-high 的费用大致相同。最困难的五张测试图片还通过了每月收费200欧元的 GPT-5 Pro 版本的测试,但即便如此,Pro 版本在地理定位照片方面的准确性也没有超过 GPT 04-mini-high。

在第25次测试中,一张荷兰诺德韦克海岸边的酒店照片,背后是沙丘上的摩天轮,Google 与 GPT 模型之间的差距变得更加明显。在之前的测试中,大多数旧模型,包括 GPT、Claude、Gemini 和 Grok,都能正确识别出国家为荷兰,但未能找到具体城镇。许多人将注意力集中在摩天轮上,误认为是同样有摩天轮的海边小镇斯赫维宁根,但那里的摩天轮位于码头上,而不是沙丘中。

然而,最新的 GPT-5 Pro 和思考模式更加不准确,甚至将地点误判为法国的一个海滩——完全不同的国家。大多数模型在某些时候都会产生幻觉,用户不应完全依赖 LLM 提供的答案。

对于开源研究者来说,不幸的是,随着 GPT-5 的发布,OpenAI 移除了选择旧模型(如 o4-mini-high)的选项。在一波负面反馈之后,OpenAI 将 GPT-4o 设为付费用户的默认模型。但是,Bellingcat 测试中确定的最佳地理定位模型仍无法访问。

相比之下,Google AI 模式是第一个也是唯一一个在第25次测试中正确识别出诺德韦克位置的模型。尽管 AI 模式由 Gemini 2.5 的一个版本驱动,但在这些测试中,它超越了 Gemini 2.5 Pro Deep Research。

谷歌将其描述为“最强大的AI搜索,具有更高级的推理能力和多模态”,AI模式在地理定位测试图像方面比所有GPT模型,包括我们之前的获胜者o4-mini-high,表现出更高的准确性。目前,AI模式仅在印度、英国和美国提供。

大多数模型在某些时候会返回幻觉结果。用户不应完全依赖大型语言模型提供的答案。即使是最优选项,如谷歌的AI模式,有时也会自信地指向错误的位置。

与两个月前相比,模型能力的差异显示了这一领域的发展速度。然而,OpenAI最近的变化也表明进步不是必然的,AI的地理定位能力可能会停滞甚至倒退。随着新模型的出现,Bellingcat将继续对其进行测试。

感谢Nathan Patin对原始基准测试的贡献。

编者按:本文由Bellingcat首次发表,经许可在此转载。

Foeke Postma是Bellingcat的研究员和培训师。他有冲突分析与解决的背景,特别关注军事、环境和LGBT+议题。

本文首次发表于全球调查新闻网络,并在此以创作共用许可的方式转载。

(以上内容均由Ai生成)

你可能还想读

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

欧洲报告揭示AI新闻助手准确性问题,谷歌Gemini表现最差

快速阅读: 欧洲广播联盟和BBC报告显示,AI平台传播新闻存严重风险,影响新闻生态,Perplexity和谷歌AI加剧公众信任下降,研究发现来源、准确性和背景问题是主要障碍。 欧洲广播联盟和BBC发布的一份新报告显示,使用生成式人工智能平台 […]

发布时间:2025年10月23日
AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

AI热潮推动美股大涨,ChatGPT引发21万亿市值增长

快速阅读: 特朗普退让提振市场情绪,但股市上涨主因是AI热潮。自2022年11月ChatGPT推出以来,美国标普500指数市值增加21万亿美元。 特朗普倾向于退让提振了市场情绪,但推动股市上涨的主要动力是围绕生成式人工智能(AI)的炒作。在 […]

发布时间:2025年10月23日
北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

北欧Riff获1600万美元A轮融资,助力企业级AI应用开发

快速阅读: 挪威Riff完成1600万美元A轮融资,累计2100万美元,由Northzone领投。Riff提供AI应用开发平台,支持多行业,旨在提升商业效果和项目成功率,新资金将用于市场扩展。 总部位于奥斯陆的Riff(原名Databutt […]

发布时间:2025年10月23日
Meta裁减AI部门约600岗位,加速技术竞赛

Meta裁减AI部门约600岗位,加速技术竞赛

快速阅读: Meta Platforms 从超级智能实验室裁减约600个职位,以加速AI技术发展。AI首席Alexandr Wang通知裁员,旨在加快决策,增加员工责任。Meta继续为TBD实验室招聘,该团队聚集高薪AI人才。 据报道,Me […]

发布时间:2025年10月23日
渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

渠道伙伴成企业AI转型关键,助力解决安全与数据挑战

快速阅读: Gartner预测,至2026年80%企业将部署生成式AI,但安全与数据基础设施挑战成障碍。研究显示,近半数企业因安全顾虑暂缓云迁移,超半数数据无备份,70%企业过去一年遭遇网络攻击,平均损失五周生产力。VARs在协助企业克服安 […]

发布时间:2025年10月23日
英政府推出AI工具,大幅提高咨询反馈分析效率

英政府推出AI工具,大幅提高咨询反馈分析效率

快速阅读: 英国政府宣布加速人工智能发展,采用“汉弗莱”系列中的Consult工具,每年可节省75,000个人工工作日,该工具处理50,000份咨询回复仅需2小时,效率远超人工。 英国政府宣布,将加速推进人工智能的发展。此前一项研究发现,每 […]

发布时间:2025年10月23日
IBM新Z17主机助力营收大增,AI成增长引擎

IBM新Z17主机助力营收大增,AI成增长引擎

快速阅读: IBM在生成式AI领域赢得95亿美元订单,大型机收入同比增长59%,新Z17机器贡献显著。AI基础设施增长15%,存储成为关键销售点。 克里希纳指出,IBM在生成式AI领域赢得了95亿美元的订单,这是一个显著的成绩。此外,IBM […]

发布时间:2025年10月23日
英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

英特尔之后,消息称美国政府欲用联邦资金入股多家量子计算公司

快速阅读: 特朗普政府正与多家量子计算公司谈判,拟通过联邦资金注资换取股权,涉及IonQ、Rigetti Computing等,每家获至少1000万美元。 感谢IT之家网友 小兴365 的线索投递! IT之家 10 月 23 日消息,据《华 […]

发布时间:2025年10月23日