Skip to content
数智风暴 首页 AI军事时政社会科技航天
登录

标签: 基准测试

  • AI代理或在基准测试中作弊,引发信任危机

    快速阅读: 中国研究人员调查283个AI基准测试,发现数据污染、文化语言偏见等问题,提出未来基准测试创新设计范式。 中国研究人员最近对283个AI基准测试进行了调查,指出当前的基准测试存在数据污染导致分数虚高、文化语言偏见导致评估不公平、缺 […]

    发布时间:2025-08-24 03:58    来源:szf
    AI代理或在基准测试中作弊,引发信任危机
  • AI代理在基准测试中可能作弊

    快速阅读: 中国研究人员调查283个AI基准测试,发现数据污染、文化语言偏见及缺乏过程可信度评估等问题,提出未来基准创新设计范式。 中国研究人员最近对283个AI基准测试进行了调查,指出当前的基准测试存在数据污染导致分数虚高、文化与语言偏见 […]

    发布时间:2025-08-23 22:55    来源:szf
    AI代理在基准测试中可能作弊
  • AI模型性能大比拼:Grok4与GPT-5基准测试深度解析

    快速阅读: ARC奖测试显示,GPT-5和Grok4在性能和成本上存在显著差异。GPT-5在ARC-AGI-1和AGI-2测试中性价比更高,而Grok4在复杂推理任务上表现更优但成本较高。GPT-5Mini和Nano版本则在低成本下提供了不 […]

    发布时间:2025-08-08 10:23    来源:szf
    AI模型性能大比拼:Grok4与GPT-5基准测试深度解析
  • GPT-5基准测试提前曝光,复刻Minecraft引网友惊叹

    快速阅读: 据《36氪 – 咨询热榜》称,近期,关于GPT-5的消息不断涌现,引发广泛关注。据悉,这款由OpenAI开发的新一代人工智能模型将于7月31日或8月初发布,代号为“Zenith”的GPT-5-pro在多项基准测试中表 […]

    发布时间:2025-07-30 18:46    来源:szf
    GPT-5基准测试提前曝光,复刻Minecraft引网友惊叹

文章分类

  • AI (6545)
  • IT (2750)
  • 产业链 (97)
  • 军事 (17235)
  • 军工产业 (577)
  • 军用通信 (153)
  • 医药 (3517)
  • 商业 (323)
  • 外交 (19901)
  • 战略建设 (791)
  • 投资 (960)
  • 政治 (1537)
  • 教育 (1)
  • 文化 (44101)
  • 无人装备 (16)
  • 无人装备 (2225)
  • 时政 (846)
  • 智能系统 (424)
  • 未分类 (136)
  • 武器装备 (1258)
  • 硬件 (3)
  • 社会 (37908)
  • 科技 (44560)
  • 经济 (10098)
  • 航天 (4247)
  • 行业应用 (1839)
  • 软件 (8)

归档日期

  • 2025 年 10 月 (2764)
  • 2025 年 9 月 (4947)
  • 2025 年 8 月 (4589)
  • 2025 年 7 月 (11314)
  • 2025 年 6 月 (3875)
  • 2025 年 5 月 (7213)
  • 2025 年 4 月 (12780)
  • 2025 年 3 月 (16036)
  • 2025 年 2 月 (8032)

热门关键词

    AI (19496)无人机 (9362)乌克兰 (3047)Openai (1651)袭击 (1585)2025 (1538)Google (1255)特朗普 (1152)Chatgpt (1083)俄罗斯 (1040)

© 2025 成都数智风科技有限公司. All rights reserved.