Skip to content
数智风暴 首页 AI军事科技航天
登录

标签: 基准测试

  • AI代理或在基准测试中作弊,引发信任危机

    快速阅读: 中国研究人员调查283个AI基准测试,发现数据污染、文化语言偏见等问题,提出未来基准测试创新设计范式。 中国研究人员最近对283个AI基准测试进行了调查,指出当前的基准测试存在数据污染导致分数虚高、文化语言偏见导致评估不公平、缺 […]

    发布时间:2025-08-24 03:58    来源:szf
    AI代理或在基准测试中作弊,引发信任危机
  • AI代理在基准测试中可能作弊

    快速阅读: 中国研究人员调查283个AI基准测试,发现数据污染、文化语言偏见及缺乏过程可信度评估等问题,提出未来基准创新设计范式。 中国研究人员最近对283个AI基准测试进行了调查,指出当前的基准测试存在数据污染导致分数虚高、文化与语言偏见 […]

    发布时间:2025-08-23 22:55    来源:szf
    AI代理在基准测试中可能作弊
  • AI模型性能大比拼:Grok4与GPT-5基准测试深度解析

    快速阅读: ARC奖测试显示,GPT-5和Grok4在性能和成本上存在显著差异。GPT-5在ARC-AGI-1和AGI-2测试中性价比更高,而Grok4在复杂推理任务上表现更优但成本较高。GPT-5Mini和Nano版本则在低成本下提供了不 […]

    发布时间:2025-08-08 10:23    来源:szf
    AI模型性能大比拼:Grok4与GPT-5基准测试深度解析
  • GPT-5基准测试提前曝光,复刻Minecraft引网友惊叹

    快速阅读: 据《36氪 – 咨询热榜》称,近期,关于GPT-5的消息不断涌现,引发广泛关注。据悉,这款由OpenAI开发的新一代人工智能模型将于7月31日或8月初发布,代号为“Zenith”的GPT-5-pro在多项基准测试中表 […]

    发布时间:2025-07-30 18:46    来源:szf
    GPT-5基准测试提前曝光,复刻Minecraft引网友惊叹

文章分类

  • AI (10203)
  • IT (2749)
  • 产业链 (197)
  • 人才流动 (1)
  • 军事 (20226)
  • 军工产业 (691)
  • 军用通信 (234)
  • 医药 (3508)
  • 商业 (322)
  • 外交 (19814)
  • 安全 (2)
  • 战略建设 (1002)
  • 投资 (2)
  • 投资 (1761)
  • 政治 (1532)
  • 教育 (1)
  • 文化 (43949)
  • 无人装备 AI (2)
  • 无人装备 (44)
  • 无人装备 (3713)
  • 时政 (833)
  • 智能系统 (5)
  • 智能系统 (530)
  • 未分类 (136)
  • 武器装备 (2275)
  • 硬件 (481)
  • 社会 (37774)
  • 科技 (44445)
  • 经济 (10046)
  • 航天 (4234)
  • 行业应用 (3103)
  • 软件 (1007)

归档日期

  • 2025 年 12 月 (1273)
  • 2025 年 11 月 (4663)
  • 2025 年 10 月 (3692)
  • 2025 年 9 月 (4784)
  • 2025 年 8 月 (4583)
  • 2025 年 7 月 (11285)
  • 2025 年 6 月 (3863)
  • 2025 年 5 月 (7179)
  • 2025 年 4 月 (12742)
  • 2025 年 3 月 (15983)
  • 2025 年 2 月 (7992)

热门关键词

    AI (20611)无人机 (10343)乌克兰 (3479)Openai (1918)袭击 (1659)2025 (1538)俄罗斯 (1297)谷歌 (1265)Google (1264)Chatgpt (1195)

© 2025 成都数智风科技有限公司. All rights reserved.