阿里千问反超DeepSeek夺冠AI投资大赛,GPT-5垫底

发布时间:2025年11月5日    来源:szf
阿里千问反超DeepSeek夺冠AI投资大赛,GPT-5垫底

快速阅读: 阿里千问在六款全球顶尖人工智能大模型参与的实盘投资比赛中,以超过20%的收益率夺冠,DeepSeek位列第二,两款中国模型成唯一盈利者,美国四模型均亏损。

六款全球顶尖的人工智能大模型参与的实盘投资比赛落下帷幕,阿里千问最终反超DeepSeek,夺得冠军。当地时间11月3日下午5点,美国AI研究平台Nof1宣布,自10月18日起举行的大模型实盘投资比赛Alpha Arena正式结束。六位参赛者中,阿里千问Qwen3-Max最终以超过20%的收益率摘得桂冠,DeepSeek v3.1位列第二,其账户金额比第三名高出3000多美元。两款中国模型成为全场唯一实现盈利的大模型,而来自美国的四款大模型则全线亏损,其中OpenAI的GPT-5亏损超过60%,排名垫底。

此次比赛汇集了Qwen3-Max、DeepSeek v3.1、OpenAI的GPT-5、谷歌的Gemini 2.5 Pro、Anthropic的Claude Sonnet 4.5和xAI的Grok 4这六款全球顶尖模型。比赛中,Nof1为每个模型账户提供了1万美元的启动资金,让它们通过Hyperliquid平台在真实市场自主交易数字货币。整个比赛期间不允许人为干预,这意味着大模型需自行识别买入机会、决定买入仓位、判断买卖时机,并实时管理风险。在此过程中,系统持续向模型提供当前账户状态、持仓情况、市场价格和技术指标等信息,以便模型作出动态决策。

从图表数据来看,六个大模型展现出三种投资风格:“领先派”Qwen和DeepSeek几乎全程占据第一梯队;“震荡派”Claude和Grok则时有起伏;“稳定派”GPT-5和Gemini 2.5 Pro则始终处于低位。比赛结果显示,DeepSeek的表现一贯稳健,历史最高收益率曾达到130%。然而,在比赛临近尾声时,更为激进的Qwen通过一次紧急避险操作成功超越DeepSeek,以超过20%的收益率和12231.82美元的账户总额夺冠。与此同时,GPT-5和Gemini 2.5 Pro的初始本金仅剩约40%。

交易记录显示,Gemini和GPT的买卖频率最高,尤其是Gemini,有时持仓时间仅为几分钟;相比之下,Anthropic的Claude和xAI的Grok则显得较为保守,持仓时间较长,交易次数较少。

Nof1表示,本季比赛旨在探讨“在几乎无人为指导的情况下,大型语言模型(LLM)能否直接作为零样本(zero-shot)系统化交易模型使用”。初步实验表明,即使在相同的运行框架和提示词下,不同大型基础模型在风险偏好、规划能力、方向性倾向(如看多或看空)及交易活跃度等方面仍存在显著差异。此外,团队还注意到,这些模型对提示词的细微变化极为敏感。Nof1透露,下一季比赛即将开启,届时将引入多提示词、多实例及交易历史等机制,以提高模型的稳定性和评估深度。

(以上内容均由Ai生成)

你可能还想读

谷歌AI概览影响搜索流量,IAC多元化策略应对挑战

谷歌AI概览影响搜索流量,IAC多元化策略应对挑战

快速阅读: 微软推出“单点付费”模式,与OpenAI的“无限量套餐”形成对比,承诺支付费用支持AI项目,构建双面内容市场补偿出版商。甘内特等成首批合作伙伴,尽管受谷歌AI影响,数字收入仍增长9%。 沃格尔将微软市场描述为一种“单点付费”模式 […]

发布时间:2025年11月5日
OpenAI推出IndQA,促进印度多语言AI发展

OpenAI推出IndQA,促进印度多语言AI发展

快速阅读: OpenAI推出IndQA,新评估基准聚焦印度文化与语言,涵盖12种语言及10个文化领域,由261位专家构建,旨在改善AI在非英语地区的性能与可访问性。 位于旧金山的人工智能研究与部署公司OpenAI,于本周二推出了IndQA, […]

发布时间:2025年11月5日
联想发布超轻AI眼镜V1,重量仅38克支持实时翻译

联想发布超轻AI眼镜V1,重量仅38克支持实时翻译

快速阅读: 联想推出AI眼镜V1,重量38克,配备2000尼特显示器,支持提词器和智能戒指配对,提供手势控制。电池续航10小时,内置天曦AI助手,支持语音命令和实时翻译,售价3999元,旨在提高生产力。 联想新推出的AI眼镜V1重量仅为38 […]

发布时间:2025年11月5日
gartner发布2026年技术趋势:AI助力开发加速

gartner发布2026年技术趋势:AI助力开发加速

快速阅读: AI-native开发平台通过生成式AI技术简化软件创建,使前线部署工程师能与领域专家合作,加速应用开发,提高组织开发效率。 AI-native开发平台利用生成式AI技术,使得软件的创建比以往更快捷简便。嵌入业务中的软件工程师, […]

发布时间:2025年11月5日
微软发现利用OpenAI API的新后门“SesameOp”

微软发现利用OpenAI API的新后门“SesameOp”

快速阅读: 微软DART团队发现威胁行为者利用OpenAI助手API部署名为SesameOp的隐蔽后门,通过加密和压缩技术远程控制受感染设备,建议采取多项措施加强防护。 威胁行为者利用OpenAI助手应用程序编程接口(API)部署后门并远程 […]

发布时间:2025年11月5日
Railtown AI与TELUS合作,推动加拿大AI发展

Railtown AI与TELUS合作,推动加拿大AI发展

快速阅读: Railtown AI Technologies Inc.与TELUS合作,通过主权AI工厂为加拿大软件公司提供安全的国内AI计算能力,促进本地AI生态系统发展,减少对外部资源的依赖。TSE:RAIL股票获Spark中性评级,面 […]

发布时间:2025年11月5日
Gartner发布2026技术趋势,AI开发平台成焦点

Gartner发布2026技术趋势,AI开发平台成焦点

快速阅读: AI-native开发平台结合生成式AI技术,加速软件开发流程,简化开发复杂度。前线部署工程师与领域专家合作,提升应用开发效率,助力组织在现有规模下实现更多应用的快速开发。 AI-native开发平台利用生成式AI技术,使得软件 […]

发布时间:2025年11月5日
亚马逊推出Alexa+,提升音乐应用智能体验

亚马逊推出Alexa+,提升音乐应用智能体验

快速阅读: 亚马逊推出Alexa+,在iOS和Android版音乐应用中实现通过心情描述选择音乐的功能,需较新Echo设备支持,目前处于测试阶段,广受好评。 苹果智能技术的一大承诺是能够与我们的应用程序互动。未来,我们不仅可以通过简单的请求 […]

发布时间:2025年11月5日