Skip to content
数智风暴 首页 AI军事时政社会科技航天
登录

标签: 基准

  • 斯坦福大学团队开发新的 AI 公平性基准

    快速阅读: 据《DevX.com》称,斯坦福大学的研究人员开发了一种新基准,以评估AI模型的偏见,包括差异意识和情境意识。现有方法可能因“一视同仁”的指令导致输出质量下降。修复偏见需多样化数据集或研究AI内部机制。专家认为技术本身无法完全消 […]

    发布时间:2025-03-13 02:47    来源:szf
    斯坦福大学团队开发新的 AI 公平性基准
  • 欠压 Radeon RX 9070 Xt 在实际游戏基准测试中击败 Rtx 5080

    快速阅读: 据《技术点》最新报道,Radeon RX 9070 XT通过超频优化可在性能上媲美更昂贵的RTX 5080,适合预算有限的玩家。然而,厂商需确保稳定供货及合理定价。 Radeon RX 9070 XT 在游戏显卡领域表现出色,特 […]

    发布时间:2025-03-12 22:29    来源:szf
    欠压 Radeon RX 9070 Xt 在实际游戏基准测试中击败 Rtx 5080
  • 这些新的 AI 基准测试可以帮助减少模型的偏差

    快速阅读: 《麻省理工学院科技评论》消息,当前的偏见评估标准,如Anthropic于2023年12月发布的《DiscrimEval》,通过分析模型在不同背景下的回应来衡量其是否存在歧视。尽管谷歌的Gemini-2 9B和OpenAI的GPT […]

    发布时间:2025-03-12 06:31    来源:szf
    这些新的 AI 基准测试可以帮助减少模型的偏差
  • 这两个新的 AI 基准测试可以帮助减少模型的偏差

    快速阅读: 据《麻省理工学院科技评论》最新报道,当前评估AI偏见的方法,如Anthropic的歧视评估(2023年12月发布),通过分析模型对不同种族和性别的回应来识别潜在的歧视模式。虽然一些模型如谷歌的Gemini-2 9B和OpenAI […]

    发布时间:2025-03-11 19:50    来源:szf
    这两个新的 AI 基准测试可以帮助减少模型的偏差
  • OpenAI 推出软件工程基准测试

    快速阅读: 《InfoQ 公司》消息,开放AI发布了SWE-Lancer基准,评估高级AI语言模型在自由职业软件工程任务中的能力。该基准基于来自优步的1400多项任务数据集,涵盖各种复杂度和报酬。初步结果显示,现有模型在处理多数任务时仍有挑 […]

    发布时间:2025-03-09 06:50    来源:szf
    OpenAI 推出软件工程基准测试
  • M3 Ultra 与 M4 Max:哪个更好?基准测试也无法判断

    快速阅读: 《数字趋势》消息,目前是苹果产品更新时期,公司推出了新款MacBook Air,搭载新芯片,采用全新设计,并调整了起售价。此外,还发布了新版Mac Studio、iPad Air和10.9英寸iPad。M4 MacBook Ai […]

    发布时间:2025-03-07 18:04    来源:szf
    M3 Ultra 与 M4 Max:哪个更好?基准测试也无法判断
  • “基准设置”T+A Solitaire T 无线耳机拥有酒后的新外观

    快速阅读: 《什么是 Hi-Fi》消息,阿莱斯特是《何为高保真》杂志的主编,在消费级和商业级媒体领域有十多年经验,曾报道过亚马逊Echo发布及政府网络安全政策等。此前,他担任过《值得信赖的评测》杂志主编。他拥有伦敦国王学院的伦理学和宗教哲学 […]

    发布时间:2025-03-05 19:30    来源:szf
    “基准设置”T+A Solitaire T 无线耳机拥有酒后的新外观
  • 腾讯的新竞争对手 DeepSeek 在关键的 AI 基准测试中看起来很有希望

    快速阅读: 据《eWeek 系列》称,腾讯公司近日发布了名为“浑元Turbo S”的新AI平台,旨在与中国另一家AI公司“深寻”竞争。该平台声称在一秒钟内回应用户查询,速度快于“深寻-R1”。基准测试显示,“浑元Turbo S”在多项测试中 […]

    发布时间:2025-03-02 01:58    来源:szf
    腾讯的新竞争对手 DeepSeek 在关键的 AI 基准测试中看起来很有希望
  • OpenAI 的 GPT-4.5 “不会碾压基准测试”,但可能是更好的朋友

    快速阅读: 据《Cointelegraph 公司》称,OpenAI即将推出的GPT-4.5模型成本将是前代的二十倍,但在创意对话方面更为出色。尽管GPT-4.5在逻辑推理上不如O系列模型,但它在医学影像诊断等方面表现出色。OpenAI CE […]

    发布时间:2025-02-28 11:20    来源:szf
    OpenAI 的 GPT-4.5 “不会碾压基准测试”,但可能是更好的朋友
  • 令人震惊的说法:xAI 是否用 Grok 3 AI 基准测试误导了世界?

    快速阅读: 据《比特币世界》称,在AI领域,xAI声称其模型Grok 3在数学推理方面超越OpenAI的模型,但OpenAI内部人士指出xAI的图表忽略了关键数据“cons@64”,导致比较失真。这引发关于AI基准透明度的争议。AI基准应全 […]

    发布时间:2025-02-23 15:18    来源:szf
    令人震惊的说法:xAI 是否用 Grok 3 AI 基准测试误导了世界?
  • xAI 在 Grok 3 的基准测试上撒谎了吗?

    快速阅读: 据《雅虎美国》最新报道,关于人工智能基准测试的争议愈演愈烈,OpenAI员工指责Elon Musk的xAI公司在Grok 3模型的基准测试中发布误导性数据。xAI坚持其正确性,但有专家质疑测试的有效性。xAI的图表未包括o3-m […]

    发布时间:2025-02-23 07:31    来源:szf
    xAI 在 Grok 3 的基准测试上撒谎了吗?
  • iPhone 16e 基准测试指出性能、RAM 和充电速度细节

    快速阅读: 据《技术雷达》称,戴夫是一位拥有超过二十年经验的自由科技记者,专长于数码产品、应用程序和网络领域。他目前居住在英国斯托克波特,并在TechRadar等多家知名网站上撰写新闻、专题和评测,特别关注手机、平板电脑和可穿戴设备。此外, […]

    发布时间:2025-02-22 19:51    来源:szf
    iPhone 16e 基准测试指出性能、RAM 和充电速度细节
«124»

文章分类

  • AI (6527)
  • IT (2750)
  • 产业链 (96)
  • 军事 (17206)
  • 军工产业 (575)
  • 军用通信 (153)
  • 医药 (3517)
  • 商业 (323)
  • 外交 (19901)
  • 战略建设 (788)
  • 投资 (953)
  • 政治 (1537)
  • 教育 (1)
  • 文化 (44101)
  • 无人装备 (16)
  • 无人装备 (2212)
  • 时政 (846)
  • 智能系统 (422)
  • 未分类 (136)
  • 武器装备 (1249)
  • 硬件 (2)
  • 社会 (37908)
  • 科技 (44560)
  • 经济 (10098)
  • 航天 (4247)
  • 行业应用 (1834)
  • 软件 (4)

归档日期

  • 2025 年 10 月 (2717)
  • 2025 年 9 月 (4947)
  • 2025 年 8 月 (4589)
  • 2025 年 7 月 (11314)
  • 2025 年 6 月 (3875)
  • 2025 年 5 月 (7213)
  • 2025 年 4 月 (12780)
  • 2025 年 3 月 (16036)
  • 2025 年 2 月 (8032)

热门关键词

    AI (19493)无人机 (9353)乌克兰 (3045)Openai (1650)袭击 (1584)2025 (1538)Google (1255)特朗普 (1152)Chatgpt (1083)俄罗斯 (1040)

© 2025 成都数智风科技有限公司. All rights reserved.