标签: 基准测试
-
AI代理或在基准测试中作弊,引发信任危机
快速阅读: 中国研究人员调查283个AI基准测试,发现数据污染、文化语言偏见等问题,提出未来基准测试创新设计范式。 中国研究人员最近对283个AI基准测试进行了调查,指出当前的基准测试存在数据污染导致分数虚高、文化语言偏见导致评估不公平、缺 […]
发布时间:2025-08-24 03:58 来源:szf -
AI代理在基准测试中可能作弊
快速阅读: 中国研究人员调查283个AI基准测试,发现数据污染、文化语言偏见及缺乏过程可信度评估等问题,提出未来基准创新设计范式。 中国研究人员最近对283个AI基准测试进行了调查,指出当前的基准测试存在数据污染导致分数虚高、文化与语言偏见 […]
发布时间:2025-08-23 22:55 来源:szf -
AI模型性能大比拼:Grok4与GPT-5基准测试深度解析
快速阅读: ARC奖测试显示,GPT-5和Grok4在性能和成本上存在显著差异。GPT-5在ARC-AGI-1和AGI-2测试中性价比更高,而Grok4在复杂推理任务上表现更优但成本较高。GPT-5Mini和Nano版本则在低成本下提供了不 […]
发布时间:2025-08-08 10:23 来源:szf -
GPT-5基准测试提前曝光,复刻Minecraft引网友惊叹
快速阅读: 据《36氪 – 咨询热榜》称,近期,关于GPT-5的消息不断涌现,引发广泛关注。据悉,这款由OpenAI开发的新一代人工智能模型将于7月31日或8月初发布,代号为“Zenith”的GPT-5-pro在多项基准测试中表 […]
发布时间:2025-07-30 18:46 来源:szf