基准 – 第 3 页 – 数智风暴

快速阅读: 据《DevX.com》称，斯坦福大学的研究人员开发了一种新基准，以评估AI模型的偏见，包括差异意识和情境意识。现有方法可能因“一视同仁”的指令导致输出质量下降。修复偏见需多样化数据集或研究AI内部机制。专家认为技术本身无法完全消 […]

快速阅读: 据《技术点》最新报道，Radeon RX 9070 XT通过超频优化可在性能上媲美更昂贵的RTX 5080，适合预算有限的玩家。然而，厂商需确保稳定供货及合理定价。 Radeon RX 9070 XT 在游戏显卡领域表现出色，特 […]

快速阅读: 《麻省理工学院科技评论》消息，当前的偏见评估标准，如Anthropic于2023年12月发布的《DiscrimEval》，通过分析模型在不同背景下的回应来衡量其是否存在歧视。尽管谷歌的Gemini-2 9B和OpenAI的GPT […]

快速阅读: 据《麻省理工学院科技评论》最新报道，当前评估AI偏见的方法，如Anthropic的歧视评估（2023年12月发布），通过分析模型对不同种族和性别的回应来识别潜在的歧视模式。虽然一些模型如谷歌的Gemini-2 9B和OpenAI […]

快速阅读: 《InfoQ 公司》消息，开放AI发布了SWE-Lancer基准，评估高级AI语言模型在自由职业软件工程任务中的能力。该基准基于来自优步的1400多项任务数据集，涵盖各种复杂度和报酬。初步结果显示，现有模型在处理多数任务时仍有挑 […]

快速阅读: 《数字趋势》消息，目前是苹果产品更新时期，公司推出了新款MacBook Air，搭载新芯片，采用全新设计，并调整了起售价。此外，还发布了新版Mac Studio、iPad Air和10.9英寸iPad。M4 MacBook Ai […]

快速阅读: 《什么是 Hi-Fi》消息，阿莱斯特是《何为高保真》杂志的主编，在消费级和商业级媒体领域有十多年经验，曾报道过亚马逊Echo发布及政府网络安全政策等。此前，他担任过《值得信赖的评测》杂志主编。他拥有伦敦国王学院的伦理学和宗教哲学 […]

快速阅读: 据《eWeek 系列》称，腾讯公司近日发布了名为“浑元Turbo S”的新AI平台，旨在与中国另一家AI公司“深寻”竞争。该平台声称在一秒钟内回应用户查询，速度快于“深寻-R1”。基准测试显示，“浑元Turbo S”在多项测试中 […]

快速阅读: 据《Cointelegraph 公司》称，OpenAI即将推出的GPT-4.5模型成本将是前代的二十倍，但在创意对话方面更为出色。尽管GPT-4.5在逻辑推理上不如O系列模型，但它在医学影像诊断等方面表现出色。OpenAI CE […]

快速阅读: 据《比特币世界》称，在AI领域，xAI声称其模型Grok 3在数学推理方面超越OpenAI的模型，但OpenAI内部人士指出xAI的图表忽略了关键数据“cons@64”，导致比较失真。这引发关于AI基准透明度的争议。AI基准应全 […]

快速阅读: 据《雅虎美国》最新报道，关于人工智能基准测试的争议愈演愈烈，OpenAI员工指责Elon Musk的xAI公司在Grok 3模型的基准测试中发布误导性数据。xAI坚持其正确性，但有专家质疑测试的有效性。xAI的图表未包括o3-m […]

快速阅读: 据《技术雷达》称，戴夫是一位拥有超过二十年经验的自由科技记者，专长于数码产品、应用程序和网络领域。他目前居住在英国斯托克波特，并在TechRadar等多家知名网站上撰写新闻、专题和评测，特别关注手机、平板电脑和可穿戴设备。此外， […]