标签: 基准
-
斯坦福大学团队开发新的 AI 公平性基准
快速阅读: 据《DevX.com》称,斯坦福大学的研究人员开发了一种新基准,以评估AI模型的偏见,包括差异意识和情境意识。现有方法可能因“一视同仁”的指令导致输出质量下降。修复偏见需多样化数据集或研究AI内部机制。专家认为技术本身无法完全消 […]
发布时间:2025-03-13 02:47 来源:szf -
欠压 Radeon RX 9070 Xt 在实际游戏基准测试中击败 Rtx 5080
快速阅读: 据《技术点》最新报道,Radeon RX 9070 XT通过超频优化可在性能上媲美更昂贵的RTX 5080,适合预算有限的玩家。然而,厂商需确保稳定供货及合理定价。 Radeon RX 9070 XT 在游戏显卡领域表现出色,特 […]
发布时间:2025-03-12 22:29 来源:szf -
这些新的 AI 基准测试可以帮助减少模型的偏差
快速阅读: 《麻省理工学院科技评论》消息,当前的偏见评估标准,如Anthropic于2023年12月发布的《DiscrimEval》,通过分析模型在不同背景下的回应来衡量其是否存在歧视。尽管谷歌的Gemini-2 9B和OpenAI的GPT […]
发布时间:2025-03-12 06:31 来源:szf -
这两个新的 AI 基准测试可以帮助减少模型的偏差
快速阅读: 据《麻省理工学院科技评论》最新报道,当前评估AI偏见的方法,如Anthropic的歧视评估(2023年12月发布),通过分析模型对不同种族和性别的回应来识别潜在的歧视模式。虽然一些模型如谷歌的Gemini-2 9B和OpenAI […]
发布时间:2025-03-11 19:50 来源:szf -
OpenAI 推出软件工程基准测试
快速阅读: 《InfoQ 公司》消息,开放AI发布了SWE-Lancer基准,评估高级AI语言模型在自由职业软件工程任务中的能力。该基准基于来自优步的1400多项任务数据集,涵盖各种复杂度和报酬。初步结果显示,现有模型在处理多数任务时仍有挑 […]
发布时间:2025-03-09 06:50 来源:szf -
M3 Ultra 与 M4 Max:哪个更好?基准测试也无法判断
快速阅读: 《数字趋势》消息,目前是苹果产品更新时期,公司推出了新款MacBook Air,搭载新芯片,采用全新设计,并调整了起售价。此外,还发布了新版Mac Studio、iPad Air和10.9英寸iPad。M4 MacBook Ai […]
发布时间:2025-03-07 18:04 来源:szf -
“基准设置”T+A Solitaire T 无线耳机拥有酒后的新外观
快速阅读: 《什么是 Hi-Fi》消息,阿莱斯特是《何为高保真》杂志的主编,在消费级和商业级媒体领域有十多年经验,曾报道过亚马逊Echo发布及政府网络安全政策等。此前,他担任过《值得信赖的评测》杂志主编。他拥有伦敦国王学院的伦理学和宗教哲学 […]
发布时间:2025-03-05 19:30 来源:szf -
腾讯的新竞争对手 DeepSeek 在关键的 AI 基准测试中看起来很有希望
快速阅读: 据《eWeek 系列》称,腾讯公司近日发布了名为“浑元Turbo S”的新AI平台,旨在与中国另一家AI公司“深寻”竞争。该平台声称在一秒钟内回应用户查询,速度快于“深寻-R1”。基准测试显示,“浑元Turbo S”在多项测试中 […]
发布时间:2025-03-02 01:58 来源:szf -
OpenAI 的 GPT-4.5 “不会碾压基准测试”,但可能是更好的朋友
快速阅读: 据《Cointelegraph 公司》称,OpenAI即将推出的GPT-4.5模型成本将是前代的二十倍,但在创意对话方面更为出色。尽管GPT-4.5在逻辑推理上不如O系列模型,但它在医学影像诊断等方面表现出色。OpenAI CE […]
发布时间:2025-02-28 11:20 来源:szf -
令人震惊的说法:xAI 是否用 Grok 3 AI 基准测试误导了世界?
快速阅读: 据《比特币世界》称,在AI领域,xAI声称其模型Grok 3在数学推理方面超越OpenAI的模型,但OpenAI内部人士指出xAI的图表忽略了关键数据“cons@64”,导致比较失真。这引发关于AI基准透明度的争议。AI基准应全 […]
发布时间:2025-02-23 15:18 来源:szf -
xAI 在 Grok 3 的基准测试上撒谎了吗?
快速阅读: 据《雅虎美国》最新报道,关于人工智能基准测试的争议愈演愈烈,OpenAI员工指责Elon Musk的xAI公司在Grok 3模型的基准测试中发布误导性数据。xAI坚持其正确性,但有专家质疑测试的有效性。xAI的图表未包括o3-m […]
发布时间:2025-02-23 07:31 来源:szf -
iPhone 16e 基准测试指出性能、RAM 和充电速度细节
快速阅读: 据《技术雷达》称,戴夫是一位拥有超过二十年经验的自由科技记者,专长于数码产品、应用程序和网络领域。他目前居住在英国斯托克波特,并在TechRadar等多家知名网站上撰写新闻、专题和评测,特别关注手机、平板电脑和可穿戴设备。此外, […]
发布时间:2025-02-22 19:51 来源:szf