基准测试 – 数智风暴

快速阅读: 中国研究人员调查283个AI基准测试，发现数据污染、文化语言偏见等问题，提出未来基准测试创新设计范式。中国研究人员最近对283个AI基准测试进行了调查，指出当前的基准测试存在数据污染导致分数虚高、文化语言偏见导致评估不公平、缺 […]

快速阅读: 中国研究人员调查283个AI基准测试，发现数据污染、文化语言偏见及缺乏过程可信度评估等问题，提出未来基准创新设计范式。中国研究人员最近对283个AI基准测试进行了调查，指出当前的基准测试存在数据污染导致分数虚高、文化与语言偏见 […]

快速阅读: ARC奖测试显示，GPT-5和Grok4在性能和成本上存在显著差异。GPT-5在ARC-AGI-1和AGI-2测试中性价比更高，而Grok4在复杂推理任务上表现更优但成本较高。GPT-5Mini和Nano版本则在低成本下提供了不 […]

快速阅读: 据《36氪 – 咨询热榜》称，近期，关于GPT-5的消息不断涌现，引发广泛关注。据悉，这款由OpenAI开发的新一代人工智能模型将于7月31日或8月初发布，代号为“Zenith”的GPT-5-pro在多项基准测试中表 […]