中国AI新模型Kimi K2 Thinking免费发布,性能超越GPT-5
快速阅读: 中国AI实验室Moonshot发布Kimi K2 Thinking模型,声称在多项基准测试中超越GPT-5和Claude Sonnet 4.5,编码能力相当。该模型开源且成本低,或改变AI市场格局。
周四,中国新兴人工智能实验室Moonshot发布了其最新的人工智能模型Kimi K2 Thinking。该模型声称在某些基准测试上超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,包括“人类最后考试”、BrowseComp(测试AI代理通过网络浏览器提取难以找到的在线信息的能力)和Seal-0(评估推理能力)。此外,Kimi K2 Thinking的编码能力与GPT-5和Sonnet 4.5相当,但并无显著优势。
Moonshot在其网站上表示:“通过积极使用多种工具进行推理,K2 Thinking能够在数百个步骤中规划、推理、执行和适应,解决一些最具挑战性的学术和分析问题。” Kimi K2 Thinking是一个专家混合模型,结合了长期规划、自适应推理和在线工具的使用(如浏览器),能够持续生成和精炼假设,验证证据,推理并构建连贯的答案。这种交错推理允许它将模糊、开放的问题分解为清晰、可操作的子任务。该模型经过约1万亿参数的训练,可在Hugging Face平台上访问。
值得注意的是,Kimi K2 Thinking建立在7月发布的Kimi K2模型之上,是开源的,这意味着开发者可以免费访问和利用底层代码和权重。据Moonshot称,该模型的训练成本低于500万美元,具体为460万美元,相比之下,美国最著名的人工智能实验室花费了数十亿美元。
如果外部验证属实,这一成果可能产生重大影响——或者像2025年1月DeepSeek引发的恐慌一样迅速平息。对于企业而言,首先考虑的是商业方面。自ChatGPT推出近三月以来,企业主一直面临压力,需要引入新的AI工具,尤其是被技术开发商推广为生产力提升器和虚拟助手的代理。这通常意味着支付企业级服务费用,例如OpenAI的企业版ChatGPT。
(披露:ZDNET的母公司Ziff Davis于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。)
直到现在,硅谷普遍的销售策略一直是,从领先开发商处购买专有AI工具是有价值的,因为即使AI不会让你破产,其他使用AI的公司几乎肯定会这样做(尽管大多数使用AI的企业并未看到任何可测量的投资回报率)。
类似于DeepSeek的R1,Moonshot新模型的出现质疑了这一销售逻辑。突然间,企业可以免费使用一个据说在执行关键代理任务上优于最佳专有模型的AI模型。当然,不太可能有大量企业因为这家最新的中国公司声称开发出更先进的模型就立即取消与OpenAI或Anthropic的企业订阅。但这确实会引起一些关注,并让人们再次思考:或许他们被告知的专有、订阅制的AI模式并非未来的唯一路径。
事实上,这种情况已经开始发生:一些美国公司,如Airbnb,现在更倾向于使用中国公司的AI工具,而不是美国同行的产品,原因在于这些工具在某些关键任务上的表现更好且成本更低。当然,也有专家表示担忧,认为开源模型,特别是来自国外的模型,存在额外的安全风险;多个美国机构和其他国家迅速禁止了DeepSeek。
中美之间的AI竞争仍在不断变化。
如果1月R1的到来是该国的“史普尼克时刻”,那么周四Moonshot公司Kimi K2模型的亮相就是中国人工智能行业的登月(双关语)。
此外:
人工智能代理的效果取决于所给的数据质量,这对企业来说是一个大问题。
美国政策制定者和技术评论家通常将这场竞赛视为一种意识形态之争,“美国人工智能”代表了西方自由民主的理想,“中国人工智能”则代表了信息流动和审查的集中控制。
尽管一些由中国实验室开发的人工智能模型确实表现出偏见并审查信息,这些似乎与中共官方政策相一致,但重要的是要记住,所有人工智能系统——无论其母公司位于何处——都带有某种偏见;你所使用的科技在某种程度上反映了构建它的人的世界观以及训练数据中嵌入的偏见。
无论如何,如果新Kimi模型的表现能够达到Moonshot网站上公布的令人印象深刻的数据,那么意识形态方面的担忧可能会让位于财务考量。没有投资者会忽视那微不足道的460万美元价格标签。
此外:
我测试了顶级人工智能浏览器——这些才是真正让我印象深刻的
在美国,虽然企业和个人消费者被灌输了支付顶级专有模型费用的概念,但投资者被告知,为了构建这些工具,公司需要投入数十亿美元的资金,即使许多公司尚未实现盈利。
到目前为止,这种说法已经奏效。领先的美国人工智能实验室如OpenAI和Anthropic现在估值已达数百亿美元,它们用于构建日益先进模型所需的基础设施和计算能力的支出也在逐日增加。然而,对于可能出现的人工智能泡沫的担忧正在加剧:全球一大部分经济可能已经与一种最终可能无法盈利的商品紧密联系在一起,而这可能导致整个体系崩溃,就像2008年住房市场因广泛使用证券化衍生品而崩盘一样。
只有时间能告诉我们是否真的处于一个人工智能泡沫之中。但有一件事是确定的:一款免费工具的突然出现,其性能超越了OpenAI和Anthropic的领先模型,将让许多技术投资者眼红——并怀疑他们是否应该支持不同的项目。
专题报道:
2025年最佳免费编程AI——只有3款通过测试(另有5款未能达标)
如何在小企业中实际应用人工智能:来自一线的10条经验教训
谷歌地图对比Waze:我对比了两款最佳导航应用,这是胜出者
蓝色USB端口意味着什么?我了解了各种颜色背后的真相,真是令人惊讶
专题报道:
2025年最佳免费编程AI——只有3款通过测试(另有5款未能达标)
如何在小企业中实际应用人工智能:来自一线的10条经验教训
谷歌地图对比Waze:我对比了两款最佳导航应用,这是胜出者
蓝色USB端口意味着什么?我了解了各种颜色背后的真相,真是令人惊讶
(以上内容均由Ai生成)