腾讯的新竞争对手 DeepSeek 在关键的 AI 基准测试中看起来很有希望
快速阅读: 据《eWeek 系列》称,腾讯公司近日发布了名为“浑元Turbo S”的新AI平台,旨在与中国另一家AI公司“深寻”竞争。该平台声称在一秒钟内回应用户查询,速度快于“深寻-R1”。基准测试显示,“浑元Turbo S”在多项测试中领先,但在数学和代码方面略逊于“深寻-R1-Zero”。腾讯此举旨在提升其在全球顶级AI公司的地位。
图像:Unsplash
内容和产品推荐具有独立的编辑性。我们在点击合作伙伴链接时可能会获得收入。了解更多:
总部位于中国深圳的腾讯团队最近推出了他们的新AI平台“浑元Turbo S”。该平台专为与另一家中国AI公司开发的“深寻”竞争而设计。腾讯希望其生成式AI平台能够帮助其在世界顶级AI公司中获得认可。据该公司称,并如路透社报道,“浑元Turbo S”可以在一秒钟内回复用户输入和查询,这比“深寻-R1”还要快。我们尚未找到证实腾讯声明的速度基准测试。
根据“浑元Turbo S”在基准测试中的表现:
根据“WinBuzzer”报道的腾讯提供的基准测试,“浑元Turbo S”在多个领域领先许多竞争对手。以下基准测试通常用于评估大型语言模型(LLM)的功能、效率和准确性。
中文:在CMMLU进行的中文语言基准测试中,“浑元Turbo S”排名最高,但在C-Eval基准测试中,“深寻-R1-Zero”表现更优。
对齐:尽管“浑元Turbo S”在LiveBench的基准测试中优于GPT-4o、Claude 3.5、Llama 3.1和“深寻-V3”,但在IF-Eval基准测试中稍逊于Claude 3.5。
一些“浑元Turbo S”的弱点包括:
数学:在某些基准测试中,“浑元Turbo S”优于GPT-4o、Claude 3.5、Llama 3.1和“深寻-V3”,但在AIME 2024和MATH评分标准下,“深寻-R1-Zero”更为出色。
知识:“浑元Turbo S”在大多数知识基准测试中排名较高,但在MMLU、MMLU-Pro和SimpleQA的基准测试中,它的表现略逊于“深寻-R1-Zero”。
推理:在BBH的推理基准测试中,“浑元Turbo S”位列第三,排在GPT-4o和Claude 3.5之后。
代码:虽然在HumanEval中“浑元Turbo S”的编码能力仅次于Claude,但在LiveCodeBench的测试结果中,它略微落后于“深寻-V3”、“深寻-R1-Zero”和GPT-4o。
尽管“浑元Turbo S”在某些情况下是明显的赢家,但在某些情况下,它仍不及“深寻-R1-Zero”。
AI竞赛中的强劲对手
腾讯的新“浑元Turbo S”平台巩固了这家中国科技巨头在全球开发最快、最强大的AI平台竞赛中的地位。尽管这并非腾讯首次涉足生成式AI工具领域,但它无疑是迄今为止公司最值得注意的投入——在未来几周、几个月乃至几年里,它无疑值得密切关注。
(以上内容均由Ai生成)