阿里千问反超DeepSeek夺冠AI投资大赛，GPT-5垫底

发布时间：2025年11月5日来源：szf

快速阅读: 阿里千问在六款全球顶尖人工智能大模型参与的实盘投资比赛中，以超过20%的收益率夺冠，DeepSeek位列第二，两款中国模型成唯一盈利者，美国四模型均亏损。

六款全球顶尖的人工智能大模型参与的实盘投资比赛落下帷幕，阿里千问最终反超DeepSeek，夺得冠军。当地时间11月3日下午5点，美国AI研究平台Nof1宣布，自10月18日起举行的大模型实盘投资比赛Alpha Arena正式结束。六位参赛者中，阿里千问Qwen3-Max最终以超过20%的收益率摘得桂冠，DeepSeek v3.1位列第二，其账户金额比第三名高出3000多美元。两款中国模型成为全场唯一实现盈利的大模型，而来自美国的四款大模型则全线亏损，其中OpenAI的GPT-5亏损超过60%，排名垫底。

此次比赛汇集了Qwen3-Max、DeepSeek v3.1、OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4.5和xAI的Grok 4这六款全球顶尖模型。比赛中，Nof1为每个模型账户提供了1万美元的启动资金，让它们通过Hyperliquid平台在真实市场自主交易数字货币。整个比赛期间不允许人为干预，这意味着大模型需自行识别买入机会、决定买入仓位、判断买卖时机，并实时管理风险。在此过程中，系统持续向模型提供当前账户状态、持仓情况、市场价格和技术指标等信息，以便模型作出动态决策。

从图表数据来看，六个大模型展现出三种投资风格：“领先派”Qwen和DeepSeek几乎全程占据第一梯队；“震荡派”Claude和Grok则时有起伏；“稳定派”GPT-5和Gemini 2.5 Pro则始终处于低位。比赛结果显示，DeepSeek的表现一贯稳健，历史最高收益率曾达到130%。然而，在比赛临近尾声时，更为激进的Qwen通过一次紧急避险操作成功超越DeepSeek，以超过20%的收益率和12231.82美元的账户总额夺冠。与此同时，GPT-5和Gemini 2.5 Pro的初始本金仅剩约40%。

交易记录显示，Gemini和GPT的买卖频率最高，尤其是Gemini，有时持仓时间仅为几分钟；相比之下，Anthropic的Claude和xAI的Grok则显得较为保守，持仓时间较长，交易次数较少。

Nof1表示，本季比赛旨在探讨“在几乎无人为指导的情况下，大型语言模型（LLM）能否直接作为零样本（zero-shot）系统化交易模型使用”。初步实验表明，即使在相同的运行框架和提示词下，不同大型基础模型在风险偏好、规划能力、方向性倾向（如看多或看空）及交易活跃度等方面仍存在显著差异。此外，团队还注意到，这些模型对提示词的细微变化极为敏感。Nof1透露，下一季比赛即将开启，届时将引入多提示词、多实例及交易历史等机制，以提高模型的稳定性和评估深度。

(以上内容均由Ai生成)