中国AI新模型免费发布,性能超越GPT-5和Sonnet 4.5
快速阅读: 中国AI实验室Moonshot发布新模型Kimi K2 Thinking,声称在多项测试中超越GPT-5和Claude Sonnet 4.5,具备开源、低成本优势,可能改变企业AI工具选择逻辑。
周四,中国新兴人工智能实验室Moonshot发布了其最新的人工智能模型Kimi K2 Thinking。该模型在某些基准测试上声称超越了OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,包括“人类最后的考试”、BrowseComp(测试AI代理通过浏览器提取难以找到的在线信息的能力)以及Seal-0(评估推理能力)。此外,Kimi K2 Thinking在编码能力方面也达到了与GPT-5和Sonnet 4.5相当的水平,但并未显著超出。
Moonshot在其网站上表示:“通过积极利用多样化的工具进行推理,K2 Thinking能够在数百个步骤中规划、推理、执行并适应,以解决一些最具挑战性的学术和分析问题。”Kimi K2 Thinking是一种专家混合模型,结合了长期规划、自适应推理和在线工具(如浏览器)的使用,“持续生成并完善假设,验证证据,推理并构建连贯的答案”,公司介绍称。“这种交错推理使其能够将模糊的开放式问题分解为清晰、可操作的子任务。”该模型经过约1万亿参数训练,现已在Hugging Face平台上线。
值得注意的是,Kimi K2 Thinking是开源的,这意味着开发者可以免费访问和利用底层代码及权重。根据Moonshot的说法,这款模型具备比OpenAI和Anthropic前沿模型更先进的代理能力。据CNBC报道,Kimi K2 Thinking的训练成本不到500万美元,确切数字为460万美元,这与美国最知名AI实验室投入的数十亿美元相比显得微不足道。如果外部验证证实这些说法,其影响可能巨大——也可能像2025年1月由DeepSeek引发的恐慌一样最终平息。
对于企业而言,首先考虑的是商业层面的问题。自从ChatGPT问世近三年来,企业主一直面临着巨大的压力,需要引入新的AI工具,尤其是被技术开发者推广为生产力助推器和虚拟助手的代理工具。这通常意味着要支付企业级服务费用,例如OpenAI的企业版ChatGPT。
(披露:ZDNET母公司Ziff Davis于2025年4月起诉OpenAI,指控其在训练和运营AI系统时侵犯了Ziff Davis的版权。)
直到现在,硅谷普遍的销售主张一直是,从领先开发者那里购买专有AI工具是值得的,因为即使AI不会让你失业,另一个使用AI的公司几乎肯定会这样做(尽管绝大多数使用AI的企业尚未看到任何可衡量的投资回报率)。
类似DeepSeek的R1,Moonshot新模型的推出质疑了这一销售逻辑。突然之间,企业可以利用一个据称在执行关键代理任务上优于最佳专有模型的免费AI模型。当然,不太可能大量企业会因最新热门的中国公司声称开发出更先进的模型而立即取消与OpenAI或Anthropic的企业订阅。但这肯定会引起关注,让人们再次思考:他们被告知的专有、订阅制的AI模式或许并非唯一的未来之路。
事实上,这种情况已经在发生:一些美国公司如Airbnb现在更倾向于使用中国公司的AI工具,而不是本国同行的产品,理由是在某些关键任务上的表现更好且成本更低。当然,也有专家表达了担忧,认为开源模型,特别是外国来源的模型,可能带来额外的安全风险;美国多个机构及其他国家迅速禁止了DeepSeek。
如果1月R1的到来是该国的“史普尼克时刻”,那么周四Moonshot发布的Kimi K2型号则是中国人工智能产业的登月之举(双关语)。
此外:
人工智能代理的表现取决于其接收的数据质量,这对企业来说是一个大问题。
美国政策制定者和技术评论员通常将这场竞赛描述为意识形态之争,一边是所谓的“美国AI”,象征着西方自由民主的价值观,另一边则是“中国AI”,代表了对信息流动和审查的集中控制。
虽然确实有一些由中国实验室开发的人工智能模型表现出偏见并审查信息,这些似乎与中国共产党的官方政策相吻合,但重要的是要记住,所有人工智能系统——无论其母公司位于何处——都带有某种偏见;所使用的技术在某种程度上反映了创建者的观念以及用于训练数据中的偏见。
无论如何,如果新的Kimi型号性能达到Moonshot网站上列出的令人印象深刻的指标,那么意识形态担忧可能会让位于财务考虑。没有投资者会忽视那低廉的460万美元价格标签。
另外:
我测试了顶级的人工智能浏览器——以下是我真正印象深刻的产品。
在美国,尽管企业和个人消费者被灌输了为顶级专有模型付费的概念,但投资者被推销的故事是,为了构建这些工具,公司需要花费数十亿美元,即使许多公司尚未盈利。
到目前为止,这一直奏效。领先的美国AI实验室如OpenAI和Anthropic现在的估值已达数百亿美元,他们用于构建日益先进模型所需的基础设施和计算资源的支出正在逐日增加。但对AI泡沫的担忧也在不断加剧:全球一大部分经济可能已经与一种最终可能无法产生利润的商品不可分割地联系在一起,这可能导致整个经济体系崩溃,就像2008年证券化衍生品对房地产市场的影响一样。
另外:
Gartner发布了2026年的技术趋势——并非全是AI:以下是清单。
只有时间能证明我们是否真的处于AI泡沫之中。但有一件事是确定的:一款免费且性能超过OpenAI和Anthropic领先模型的工具突然出现,将让许多科技投资者眼红——并怀疑他们是否应该支持不同的项目。
特写:
2025年最佳免费编程AI——只有3款脱颖而出(5款未能达标)
如何在小企业中实际运用AI:来自前线的10条教训
谷歌地图与Waze:我对比了两款最佳导航应用,以下是谁胜出
蓝色USB端口意味着什么?我发现所有颜色背后的真相,真是令人惊讶
2025年最佳免费编程AI——只有3款脱颖而出(5款未能达标)
如何在小企业中实际运用AI:来自前线的10条教训
谷歌地图与Waze:我对比了两款最佳导航应用,以下是谁胜出
蓝色USB端口意味着什么?我发现所有颜色背后的真相,真是令人惊讶
(以上内容均由Ai生成)