腾讯的新竞争对手 DeepSeek 在关键的 AI 基准测试中看起来很有希望

发布时间：2025年3月2日来源：szf

快速阅读: 据《eWeek 系列》称，腾讯公司近日发布了名为“浑元Turbo S”的新AI平台，旨在与中国另一家AI公司“深寻”竞争。该平台声称在一秒钟内回应用户查询，速度快于“深寻-R1”。基准测试显示，“浑元Turbo S”在多项测试中领先，但在数学和代码方面略逊于“深寻-R1-Zero”。腾讯此举旨在提升其在全球顶级AI公司的地位。

图像：Unsplash

内容和产品推荐具有独立的编辑性。我们在点击合作伙伴链接时可能会获得收入。了解更多：

总部位于中国深圳的腾讯团队最近推出了他们的新AI平台“浑元Turbo S”。该平台专为与另一家中国AI公司开发的“深寻”竞争而设计。腾讯希望其生成式AI平台能够帮助其在世界顶级AI公司中获得认可。据该公司称，并如路透社报道，“浑元Turbo S”可以在一秒钟内回复用户输入和查询，这比“深寻-R1”还要快。我们尚未找到证实腾讯声明的速度基准测试。

根据“浑元Turbo S”在基准测试中的表现：

根据“WinBuzzer”报道的腾讯提供的基准测试，“浑元Turbo S”在多个领域领先许多竞争对手。以下基准测试通常用于评估大型语言模型（LLM）的功能、效率和准确性。

中文：在CMMLU进行的中文语言基准测试中，“浑元Turbo S”排名最高，但在C-Eval基准测试中，“深寻-R1-Zero”表现更优。

对齐：尽管“浑元Turbo S”在LiveBench的基准测试中优于GPT-4o、Claude 3.5、Llama 3.1和“深寻-V3”，但在IF-Eval基准测试中稍逊于Claude 3.5。

一些“浑元Turbo S”的弱点包括：

数学：在某些基准测试中，“浑元Turbo S”优于GPT-4o、Claude 3.5、Llama 3.1和“深寻-V3”，但在AIME 2024和MATH评分标准下，“深寻-R1-Zero”更为出色。

知识：“浑元Turbo S”在大多数知识基准测试中排名较高，但在MMLU、MMLU-Pro和SimpleQA的基准测试中，它的表现略逊于“深寻-R1-Zero”。

推理：在BBH的推理基准测试中，“浑元Turbo S”位列第三，排在GPT-4o和Claude 3.5之后。

代码：虽然在HumanEval中“浑元Turbo S”的编码能力仅次于Claude，但在LiveCodeBench的测试结果中，它略微落后于“深寻-V3”、“深寻-R1-Zero”和GPT-4o。

尽管“浑元Turbo S”在某些情况下是明显的赢家，但在某些情况下，它仍不及“深寻-R1-Zero”。

AI竞赛中的强劲对手

腾讯的新“浑元Turbo S”平台巩固了这家中国科技巨头在全球开发最快、最强大的AI平台竞赛中的地位。尽管这并非腾讯首次涉足生成式AI工具领域，但它无疑是迄今为止公司最值得注意的投入——在未来几周、几个月乃至几年里，它无疑值得密切关注。

(以上内容均由Ai生成)

腾讯的新竞争对手 DeepSeek 在关键的 AI 基准测试中看起来很有希望

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

谷歌Gemini 3 Pro发布

独具创新，直击痛点：深度解析华为十大最新方案

Palantir估值承压仍领跑AI赛道

Palantir与Snowflakes深化AI合作

Palantir与迪拜控股共建AI公司

Palantir携手Lumen共建企业AI平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台