中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5
快速阅读: 周四,中国公司Moonshot发布Kimi K2思考模型,该模型在多项基准测试中超越GPT-5和Sonnet 4.5,且开源免费。训练成本仅460万美元,挑战美国专有模型。
周四,Moonshot发布了其新的Kimi K2思考模型。该公司声称,在某些基准测试中,该模型的表现优于GPT-5和Sonnet 4.5。开源人工智能对美国专有模型构成了挑战。随着中国新兴的人工智能实验室Moonshot推出新模型,全球人工智能军备竞赛持续变化。
此外,关于开源能否在生成式人工智能崛起中生存的问题也引起了讨论。
周四,这家位于北京的公司发布了Kimi K2思考模型,据称在关键基准测试中,包括“人类最后的考试”、BrowseComp(测试AI代理通过浏览器提取难以找到的在线信息的能力)和Seal-0(评估推理能力)上,该模型的表现超过了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5。Kimi K2思考模型还展示了与GPT-5和Sonnet 4.5相当的编码能力,但没有显著超出。
Moonshot在其网站上写道:“通过积极使用多种工具进行推理,K2思考能够规划、推理、执行并适应数百个步骤,以解决一些最具挑战性的学术和分析问题。”
Kimi K2思考模型是一个专家混合模型,融合了长期规划、自适应推理和在线工具(如浏览器)的使用,可以“不断生成和精炼假设,验证证据,推理并构建连贯的答案”。这种交织推理允许它将模糊的开放式问题分解为清晰、可操作的子任务。该模型大约有1万亿个参数,可以在Hugging Face上访问。
重要的是,Kimi K2思考模型是开源的,这意味着开发人员可以免费访问和构建底层代码和权重。再次强调一下:根据Moonshot的说法,一个具有比OpenAI和Anthropic前沿模型更先进的代理能力的模型是免费的。Moonshot表示,训练该模型的成本不到500万美元——确切地说是460万美元,据CNBC报道——与美国最著名的人工智能实验室花费的数十亿美元相比,这几乎可以忽略不计。
如果外部验证属实,这可能意味着重大影响——或者像2025年1月由DeepSeek引发的恐慌那样最终平息。
对于企业的考虑
首先,从商业角度来看,自从ChatGPT推出近三周年以来,企业主一直面临着巨大的压力,要求他们采用新的AI工具,特别是被技术开发者营销为生产率提升器和虚拟助手的代理。这通常意味着要支付企业级服务费用,例如OpenAI的企业版ChatGPT。
(披露:ZDNET的母公司Ziff Davis于2025年4月对OpenAI提起诉讼,指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。)
到目前为止,硅谷普遍的销售论点是,购买领先开发商的专有AI工具是值得的,因为即使AI不会让你失业,另一个使用AI的公司几乎肯定会这样做(尽管大多数使用AI的企业尚未看到任何可衡量的投资回报率)。
类似于DeepSeek的R1,Moonshot的新模型的到来使整个销售论点受到质疑。突然间,企业可以利用一个免费的AI模型,据说在执行关键代理任务方面优于最好的专有模型。
当然,不太可能有大量企业会因为最新的热门中国公司声称构建了一个更先进的模型而立即取消与OpenAI或Anthropic的企业订阅。但这肯定会引起一些关注,让人们再次思考:他们被告知的专有、订阅制的AI模式可能不是唯一的未来之路。
事实上,这种情况已经在发生:一些美国公司如Airbnb现在更倾向于使用中国公司的AI工具,而非本国同行的产品,理由是在某些关键任务上的表现更好且成本更低。当然,一些专家表达了担忧,认为开源模型,尤其是外国来源的模型,可能会增加安全风险;几个美国机构和其他国家迅速禁止了DeepSeek。
AI对决:美国与中国
如果R1在1月的推出是该国的“斯普特尼克时刻”,那么周四Moonshot公司Kimi K2模型的发布则是中国人工智能行业的“登月”(双关语)。
此外:
人工智能代理的质量取决于其接收的数据,这对企业来说是个大问题。
美国政策制定者和技术评论家通常将这场竞赛视为一种意识形态竞争,一边是代表西方自由民主理想的“美国AI”,另一边是代表信息流动和审查集中控制的“中国AI”。
尽管确实有一些由中国实验室构建的人工智能模型表现出与中共官方政策相一致的偏见和审查行为,但重要的是要记住,所有的人工智能系统——无论其母公司位于何处——都带有某种形式的偏见;所使用的科技在某种程度上反映了开发人员的世界观以及训练数据中嵌入的偏见。
无论如何,如果新Kimi模型的表现能达到Moonshot网站上公布的令人印象深刻的指标,那么意识形态上的担忧可能会让位于财务考虑。没有投资者会忽视那低廉的460万美元价格标签。
此外:
我测试了顶级人工智能浏览器——这是真正让我印象深刻的一款。
在美国,虽然企业和个人消费者被灌输了购买顶级专有模型的价值,但投资者却被说服相信,为了构建这些工具,公司需要投入数十亿美元的资金,尽管许多公司尚未实现盈利。
到目前为止,这一策略奏效了。领先的美国人工智能实验室如OpenAI和Anthropic现在的估值已达数百亿美元,用于构建越来越先进模型所需的基础设施和计算资源的支出也在日复一日地增加。但关于人工智能泡沫的担忧正在加剧:全球很大一部分经济可能已经与这种最终可能无法产生利润的商品紧密相连,这可能导致整个行业崩溃,就像2008年住房市场因广泛使用证券化衍生品而崩溃一样。
此外:
Gartner发布了2026年的技术趋势——并非全部都是人工智能:以下是清单。
只有时间能证明我们是否真的生活在一个AI泡沫中。但有一件事是肯定的:一款免费且性能超过OpenAI和Anthropic领先模型的工具突然出现,会让许多科技投资者眼红——并思考他们是否应该支持不同的项目。
特辑:
2025年最佳免费编程AI——只有3款通过考验(5款表现不佳)
如何在小企业中实际使用AI:来自前线的10条经验教训
谷歌地图对比Waze:我比较了两个最佳导航应用,这是胜出者
蓝色USB端口意味着什么?我了解了所有颜色背后的真相,这真是太疯狂了
2025年最佳免费编程AI——只有3款通过考验(5款表现不佳)
如何在小企业中实际使用AI:来自前线的10条经验教训
谷歌地图对比Waze:我比较了两个最佳导航应用,这是胜出者
蓝色USB端口意味着什么?我了解了所有颜色背后的真相,这真是太疯狂了
(以上内容均由Ai生成)